当前位置：首页 > 科技资讯 > 正文

AI医疗影像：从辅助诊断到多模态融合的机遇与挑战

主机测评网
科技资讯
2026-03-03
373

AI医疗影像：从辅助诊断到多模态融合的机遇与挑战人工智能医疗影像 Transformer 数据挑战第1张

最近，国家卫健委等五部门联合发布了《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》，为“人工智能+医疗卫生”的发展设定了明确的时间节点：至2030年，基层医疗机构的智能辅助诊疗应用将基本实现全面覆盖，同时推动二级及以上医院广泛采用医学影像智能辅助诊断、临床诊疗智能辅助决策等AI技术，并基本建成完善的“人工智能+医疗卫生”应用标准规范体系，打造一批具有全球影响力的科技创新与人才培养基地。

目前，我国医疗影像的智能化建设正加速推进，医学影像智能诊断服务的普及，为增强基层医疗服务能力开辟了全新途径。

医疗影像，包括X光、CT、MRI、超声等，是通过多种成像技术将人体内部结构与组织可视化呈现的手段，在疾病诊断、治疗及监测中扮演着至关重要的角色。

得益于医疗影像数字化进程较早，数据结构较为统一，便于计算机视觉技术处理，早在上世纪90年代，行业就开始了医疗影像与计算机辅助诊断的结合探索。随后，以卷积神经网络（CNN）为核心的深度学习技术在图像识别方面实现重大突破。从2017年前后起，AI在医疗影像领域的研究、临床试验及实际应用迅猛发展，成为人工智能在各行各业中最早实现大规模应用的领域之一。

现阶段，AI医疗影像辅助诊断技术已趋于成熟，进入实际部署与应用阶段，国内顶尖三甲医院几乎都已引入相关AI产品。

AI赋能医疗影像的核心价值

人工智能技术已经为医疗影像领域创造了巨大的价值。

我国影像科医生资源极度匮乏，尤其在繁忙的三级医院表现突出。据我们调研，三级医院影像科医生每人每天平均需完成80至100份CT报告、60至80份磁共振报告或120至150次超声检查，超负荷工作已成常态。

传统诊断流程中，医生需要仔细阅读大量影像，识别并标注病灶的尺寸、形态、位置，再综合多种信息出具报告，整个过程通常需要约30分钟。而借助AI辅助，病灶识别与定量标注等耗时步骤实现了高度自动化，整体诊断时间可缩短至5至10分钟，极大提升了医生的工作效率，特别是减轻了三级医院医生早已超负荷的工作压力。

AI技术已深入影像科的各类主流检查，例如胸肺部的肺结节与肺炎识别、骨科的骨折检测与骨龄评估，以及乳腺病灶辅助检测等；同时在放疗、外科手术等治疗环节也获得广泛应用。在影像检查中，AI的核心功能是自动识别并标注病灶，辅助医生做出诊断，其识别准确率普遍超过95%。在放疗领域，基于AI的靶区勾画、剂量计算及自适应放疗规划，可将原本数小时的治疗计划制定压缩至几分钟完成；在外科手术中，AI医疗影像技术辅助医生进行手术规划，并在术中提供定位与导航支持，已取得显著进展。

正是凭借这种“高效精准”的优势，众多医院纷纷引入AI医疗影像产品，尤其在三级医院影像科已形成规模化应用。粗略估算，全国三级医院影像科医生总数约14万人，平均年薪约19万元，保守假设AI能为其节省一半工作时间，理论上每年可创造超过130亿元的价值。

商业化落地面临的挑战

然而，巨大的价值创造并未带来相应的商业收益。根据我们的测算，2020至2024年间，全行业累计商业收入不足30亿元，平均每家医院终身使用一款AI医疗影像产品的费用仅为40万元，且多为一次性软件买断，后续服务收费困难。整个行业陷入了“叫好不叫座”的商业化窘境，企业获取的价值远低于其创造的价值。

主要原因在于当前辅助型AI医疗影像产品的技术门槛较低，导致同质化竞争异常激烈。

通常，利用数千例标注影像训练一组串联的“小模型”即可实现辅助诊断功能，技术门槛与研发成本较低，吸引了大量企业涌入。截至2025年，已有超过100款AI医疗影像产品获得三类医疗器械注册证（NMPA），同场竞技；仅胸肺单一场景，就有数坤、推想、深睿、联影、医准等十余家公司展开角逐。

激烈的市场竞争迫使厂商普遍采取“免费试用”策略以抢占医院入口，最终使整个行业陷入囚徒困境：一旦有企业免费，其他企业不得不跟进；而当医院习惯了免费服务后，任何率先收费的厂商都可能被迅速替换，从而丢失市场份额。

此外，医院经费有限进一步压缩了AI医疗影像产品的市场空间。由于当前AI产品仍停留在辅助诊断层面，未能提供超越医生能力的增量价值，医保机构和患者缺乏付费意愿，购买主要依赖医院甚至科室自筹资金。

然而，除了顶尖三甲医院外，其他医院的软件采购经费极为有限。许多三乙及二级医院全年检查收入仅百万级别，影像科本身常处于亏损状态，即便购买必需的、售价数十万至百万的CT硬件设备也已捉襟见肘，更无力承担非必需、数十万元的软件费用，这使得AI影像产品的市场天花板进一步降低。

在激烈竞争下，现有AI医疗影像企业盈利极为困难。以AI眼底影像领军企业鹰瞳科技为例，2024年营收1.5亿元，但销售费用占比近半，加上其他运营与财务成本，全年亏损2.6亿元，盈利状况堪忧。大多数非头部企业年收入仅千万元级别，难以支撑高昂的研发投入，长期依赖外部融资存活。这并非个例，而是同质化竞争下整个行业困境的写照。

“AI+医疗影像”的未来潜力

这种困境有望被打破，这需要AI技术在影像分析、疾病诊断、治疗及监测等领域创造更大价值，同时也意味着更高的研发门槛与竞争壁垒。

目前，AI仍仅限于辅助诊断，在诊疗准确性上存在短板。具体而言，在检查环节，AI在第一步“检出病灶”方面表现优异，甚至比人类更全面（漏检率低）；但在第二步“判断病灶良恶性”上，其表现尚不尽如人意（误诊率高于资深医生）。在治疗辅助（如化疗、手术）方面，AI能大幅提升医生准备效率，但治疗计划仍需医生人工复核以确保质量；术中虽可提供定位与导航支持，但治疗操作主体仍是医生。因此，即便没有监管限制，AI的能力上限暂时也只能作为医生的增效工具，难以替代医生。

若要进一步提升AI价值，必须依赖更强的基础模型能力。当前医疗影像商业化模型仍以卷积神经网络（CNN）为主，其优势在于局部细节特征捕捉，但天生缺乏全局视野，容易“只见树木不见森林”，对复杂疾病影像产生误判。例如，在一张全身PET-CT扫描中，判断骨骼可疑点是原发性骨肿瘤还是肺癌骨转移，需将骨骼病灶与远处肺部信息关联，这是基于CNN的AI难以实现的，而优秀医生却能轻松做到。此外，CNN对三维影像的理解能力也相对薄弱。

业界已认识到，引入Transformer架构可显著提升AI医疗影像的能力上限。Transformer最初用于自然语言处理（NLP），是近年来大语言模型快速发展的基石，其核心自注意力机制（Self-Attention）擅长捕捉全局结构与长距离依赖，恰好能弥补CNN的不足。

在上述案例中，骨骼可疑点可通过注意力机制直接与远处肺部结节建立强关联，为“肺癌骨转移”诊断提供有力证据。这一进步使AI从“辅助诊断”向“独立诊断”迈近一步。

除了影像分析本身的提升，引入Transformer有望使AI从影像领域切入，并超越影像，跃升为处理多维度医疗信息的临床综合大模型，这一上限由Transformer的多模态能力开启。

理论上，借助Transformer处理多模态数据的能力，我们可以将患者的影像数据（CT、MRI、X光、病理切片）、文本数据（病史、主诉、既往报告）、检查数据（血液、尿液）、时序数据（心电图、脑电图）、组学数据（基因、蛋白质组）等全部输入AI，将AI从“单兵作战”（纯影像）推向“全域决策”，打破不同医疗数据形态间的壁垒，为构建覆盖筛查、诊断、手术规划到术后随访全流程的真正综合性临床诊疗大模型铺平道路，实现诊断、治疗与管理各环节的协同。

数据：挑战与机遇并存

从基于CNN到基于Transformer的AI医疗影像范式转移，从单模态影像辅助分析到多模态综合诊疗模型的演进路径看似清晰且鼓舞人心。近年来，学术界涌现大量基于Vision Transformer（ViT）、Swin Transformer、CNN-Transformer混合的论文，发表于RSNA、MICCAI等顶级会议，涵盖肿瘤检测、器官分割、病灶分类、跨模态检索等任务，并在多项基准测试中超越CNN模型。

然而，研究热度与商业落地之间存在巨大鸿沟，目前鲜有基于Transformer的成功AI医疗影像应用问世，更不用说多模态综合诊疗模型。

这背后有多重原因：医疗领域天然保守且厌恶风险，对新技术审批极为严苛；CNN辅助诊断软件已有FDA、NMPA批准先例，而Transformer多模态模型更为复杂、不透明，可解释性弱，审批难度更大。同时，Transformer技术路线仍在快速迭代，企业对投入长周期认证可能“过时”的架构心存顾虑。计算成本与部署挑战方面，Transformer模型参数量大、计算复杂度高，尤其处理高分辨率3D医疗影像时，对GPU算力与存储要求极高；医院IT系统（PACS、RIS、EMR等）庞大复杂，Transformer模型的集成难度可能更高。此外，多数厂商和医院已围绕CNN构建了工具链、人才梯队和适配生态，生态颠覆需要足够大的价值提升才能推动各方下定决心转型。

但在巨大潜力面前，长期来看，算力、生态、监管并非最大挑战，它们可通过技术进步、市场演变和政策调整逐步解决。我们认为，当前阻碍AI医疗影像发展的最紧迫挑战是数据，而最大的机遇也恰恰蕴藏在数据之中。

Vision Transformer若从头训练，需要百万至千万级图像数据；在医疗领域微调通常也需十万至百万级标注数据，这比当前主流商用医疗影像模型的训练规模高出数个数量级。而医疗数据涉及个人健康信息，受HIPAA（美国）、GDPR（欧盟）、中国个人信息保护法等严格法规保护，数据共享与流通极为受限，给训练数据准备带来巨大挑战。

许多疾病的可用数据远小于此量级，例如葡萄膜黑色素瘤全球每年仅数万例，某些罕见病甚至只有几百上千例。即使对于肺癌等大病种，全球年发病数百万例，获取大规模高质量标注数据仍十分困难。如何获得众多医疗机构同意以获取影像数据，如何克服不同设备因扫描协议、参数、重建算法差异导致的数据不一致，如何解决医生经验差异带来的标注质量参差不齐，这些数据问题对新技术应用构成巨大挑战。

多模态数据融合的美好愿景，使数据问题的难度呈指数级上升。

首先，多模态模型训练不仅需要标注影像数据，还需收集处理多维度数据：病理标注、临床数据整理、基因注释等，新增巨大工作量。而不同模态数据的对齐是更为复杂的挑战，将来自不同时间、不同来源的数据精确对齐与配对，无疑是一项浩大的数据工程。

医疗影像是人工智能较早赋能的领域，已创造显著价值。但如今，“数据墙”正成为阻碍AI在医疗影像乃至综合诊疗领域发挥更大价值的核心瓶颈。因此，能在医疗数据的收集、治理、标准化、标注、隐私保护及高效利用方面建立核心能力的企业，有望构建最深护城河，引领下一代医疗AI发展。

从全局看，数据问题首先是技术问题，可通过以下途径缓解：发展自监督学习以减少对标注数据的依赖；部署联邦学习，在数据不出机构前提下实现多机构联合训练，减轻数据孤岛限制；探索合成数据以缓解罕见病数据不足等。

数据问题又远非单纯技术问题，还涉及组织协调、利益博弈、信任机制、法律合规等非技术层面。其中，最重要的是设计或形成一种有效协调机制，让数据流动起来，充分发挥AI模型训练的价值。

从逻辑上看，存在两种途径：一是市场化方式，二是自上而下的制度设计。孰优孰劣，仍需更多研究明确。但中国在第二种方式上可能具备制度优势，我们可探索通过制度设计，更高效地解决医疗领域数据问题，从而引领全球AI医疗发展。

数据问题并非医疗影像领域独有，厘清并解决该领域的数据难题，不仅能推动医疗AI自身的革命性发展，也将为AI赋能其他各行各业提供宝贵经验与范本。