【蚂蚁集团】AI医疗热的冷思考 - 提升效率还是替代医生？

【查看信息来源】发布日期：3-22 8:34:34 文章分类：商业洞察

专题：【蚂蚁集团】【医疗机构】【AI医疗】

　　界面新闻记者 | 李科文黄华

　　自DeepSeek再度掀起国内生成式AI大模型热潮以来，面向C端的个人健康管理成为国内医疗+AI领域最火热的应用场景之一。

　　面向C端的个人健康管理医疗+AI，是指利用人工智能技术赋能个人用户，实现疾病预防、健康监测、个性化干预及治疗辅助的全生命周期管理。其中互联网+医院是该模式最主要的落地场景之一。

　　据国家卫健委统计数据和公开数据，截至2024年9月，我国已建成并运营的互联网医院总数约3340家，涵盖公立医院主导型、企业平台型和民营专科型等多种模式。就在2019年，这个数字还只有400。

　　但热潮之下也需要冷静，据第壹财经，70%以上的互联网医院线上转化率不足1%，意味着每100个线下病患，最终转化为线上治疗的不到1个。这一数据表明，虽然互联网医疗形式上已初具规模，但普及性和有效性仍是需破解的困扰。

　　“优质医疗资源始终有限，其实不是每一个互联网医院都能成为巨大的流量入口。” 方舟健客开创人、老总兼首席执行官谢方敏向界面新闻表示，用户信任度不足、医患互动障碍、资源分配不均仍是当前互联网医院发展的三大瓶颈。

　　线下医患面对面互动的高附加值难以在线上复现，造成患者对互联网医疗的信任难以建立。因为互联网医院难以提供充分的安全感和治疗深度，许多患者仍然倾向于线下就诊。

　　另外，优质医师资源聚焦在三甲医院，而互联网平台更多依赖外部合作医师，造成资源协同能力较弱，治疗水平受限。这种结构性问题使得许多互联网医院难以形成稳定的病患黏性，同时也影响了医师的参与度和线上服务品质。

　　就诊期间的沟通效率低也是一大难题。互联网平台上的医师互动度效率低，患者难以获得持续、深度的医疗沟通，最终影响治疗效果和患者体验。这种局限性不仅降低了病患的复购率，也使得医师在互联网医院的积极性不高，形成了恶性循环。

　　即直到今天为止，生成式AI还无法完美解决互联网医疗中的所有槽点。

　　“整体来看，AI在医疗行业的应用仍在探索阶段，当前更偏向于在‘效率工具’研发上的探索。AI最主要的价值是提升效率，而非替代医师。”谢方敏表示，AI可以承担初步咨询，提高病患的活跃度（月活提升），从而增进后续健康管理、复诊续方等全链条实现闭环。

　　谢方敏表示，从多年实践经验来看，80%的医疗咨询存在重复提问，“一直回复同样的问题”也变相占用了医师大量时间。他认为：“接入大模型之后，AI医师助理不仅可以更准确识别语言歧义，并且可以根据医师的问诊逻辑进一步追问，再将问题初筛汇总后交由医师集中处理。”

　　谢方敏表示，接到用户问询时，AI医师助手经过医师准许，会针对患者提出的条件性问题，进行符合专业医学的解答。尤其是老年慢病患者普遍会存在重复、屡次提问的情景，这些老年慢病群体希望在就医进程中获得情绪价值的抚慰。

　　利用AI布局和试错的成本已大幅下降，很多企愿意主动拥抱AI+医疗寻求改变。

　　“在某些岗位上，AI的应用成本甚至远低于雇佣人力。”瑞慈医疗集团首席技术官王刘程向界面新闻表示，目前，AI在体检行业的应用已明显降低成本，例如，在辅助主检医师校核和整理体检报告结果方面，AI的使用成本已降至每份低于0.2元。

　　刘程介绍，以超声报告记录场景为例，医师手持探头进行超声检查，身旁还需一名非专业医师记录检查结果。而在AI辅助模式下，医师通过语音转文字输入，结合AI医疗大模型便可生成检查报告，尽管最终仍需医师复核，但整体流程大幅优化。如果每个体检中心能减少6至8名有关人员，根据100家体检中心估算，意味着可以节约600至800人的人力成本。

　　刘程表示，在体检结论的出具进程中，传统方式主要依靠人工提取异常指标（“红色箭头”标注的项目），这一流程至少涉及三轮医师，包含检查医师、科室医师、最终审核医师，同时还需不同科室的信息整合，整体流程较为繁琐。而AI大模型具备跨科室、跨检查项目、跨设备的数据整合能力，例如，某份体检报告显示甲胎蛋白阳性，但肝脏超声显示功能正常，那么肝脏异常风险可能不大；但若多项异常指标叠加，AI便能迅速评估高风险情况，并建议患者尽快就诊，优化原有的工作模式。

　　让医师完全接受AI仍存有疑虑。很多医师对生成式AI的使用仍较为谨慎，更多是将其当作搜索引擎，而非深度交互的智能助手。

　　谨慎来源于暂时还无法完全消除的AI幻觉。即AI生成的信息可能发生偏差甚至编造虚假内容。

　　例如，直到今天，AI的认知仍停留在“我不晓得自己知道什么”的阶段，造成其在医疗场景下偶尔会出现错误或不可靠的判断，而医学领域对精准性和可靠性的要求极高，任何失误都可能影响患者安全。这种不可控的“幻觉”使医师对AI的信任度难以建立，尤其是在关键诊断环节。

　　据《文汇报》引用《美国医学会杂志》2023年发表的一项随机临床试验结果，当医师被故意提供带有偏倚的AI诊断建议时，其诊断准确性降低了11.3%。即便在影像分析领域，AI的偏差也有可能影响医师的最终判断。

　　方舟健客技术责任人向界面新闻表示，AI幻觉的发生主要源于两个因素：一是内容缺失，二是训练内容之间的歧义。当AI无法从已经有知识库中找到明确的定论，或面对相互矛盾的信息时，就可能生成不准确甚至不存在的回答。因此，抑制AI幻觉的最佳方式，就是为模型提供准确、权威的知识。

　　“目前，医疗AI仍然面临高质量数据的稀缺问题，AI的练习主要依赖历史病例、影像数据、临床研究和医师经验，而数据质量的不同可能直接影响AI的可靠性。”该技术责任人表示，其在内部构建了涵盖药品说明书、医学指南等专业信息的知识库，确保AI的练习内容基于最权威的数据来源。其还利用大模型对知识库进行反复检查和优化，确保内容的准确性，减少AI在输出信息时可能发生的不可预测情况。

　　该技术责任人补充，除了数据质量，优化AI还需要企业对医疗行业和业务逻辑有深刻理解，才能构建更精确的算法来真正赋能医疗场景。医疗AI的核心竞争力由两个方面决定：第壹是高质量的知识库，即企业能否整合行业可靠的医学知识、权威指南和临床实践案例，为AI提供稳定可靠的练习数据；第贰是算法的优化，即AI如何结合企业的业务逻辑，将行业知识与机器学习模型深度融合，使AI的诊断建议更贴合实际临床需求。