大语言模型与基础模型在眼科领域的应用

来源: 2025.10.29
我要投稿

图片
“未来已来,只是尚未均匀分布。”


William Gibson 这句常被引用却依旧极具预见性的话,完美契合当下眼科人工智能(Artificial Intelligence,AI)发展的时代背景。大语言模型Large Language ModelsLLMs)与基础模型已不再是遥不可及的未来概念,它们正迅速改变临床医生、研究人员及患者参与眼健康管理的方式[1、2]。然而,与所有颠覆性技术一样,其益处的可及性存在显著差异,这引发了关于“获取渠道”、“信任度”与“负责任部署”的一系列问题。




基础模型为何对眼科至关重要?


眼科领域一直处于医学影像技术的前沿,眼底摄影、光学相干断层扫描、血管造影等成像方式会产生海量数据集,这些数据集正是 AI 开发的理想素材[1、3]。但直至近期,大多数算法的应用范围仍较为狭窄 ,仅针对单一疾病、单一任务或单一成像方式训练。而基础模型(即基于海量多样化数据集预训练的大型神经网络)的出现,彻底改变了这一范式[4、9]

此类模型,如 RETFound、RetiZero、EyeFM,以及适用于眼科的多模态智能体 ChatGPT-5 等,都具备跨任务、跨领域的泛化能力 [3、4、8]。无需为糖尿病视网膜病变筛查单独构建一套算法,再为年龄相关性黄斑变性构建另一套算法:基础模型通过微调即可完成多项任务,从疾病检测到预后预测,甚至生成自然语言报告[9、10]

其影响力深远,基础模型有望为整个眼科医疗服务链条提供支持,既包括资源匮乏诊所的分诊工作,也涵盖学术医院的高级亚专科诊疗决策[4、8]




LLMs 在眼科医疗中的兴起

尽管基于影像的模型在眼科 AI 领域占据主导地位,但 LLMs 正悄然革新医疗服务中“文本处理”与“医患沟通”层面的工作[6、7]。在临床工作流中,住院医师与技术人员每天需撰写数千份影像报告(图1),再由眼科医生逐一审核。早期采用 ChatGPT-4o 进行报告审核的试点项目显示,LLMs 检测报告中不一致性与错误的准确率可与人类专家媲美,同时还能节省时间与成本[6]


图片
图1  LLMs 在眼科的工作流程示意图说明:文本数据(如症状、病史)与影像数据(如 OCT、FFA)被联合编码后,输入预训练模型处理,最终解码为临床相关输出。应用场景包括自动问答、诊断、信息检索、筛查、总结、影像分析与预测建模

除报告审核外,LLMs 还可作为“临床辅助工具”,用通俗语言向患者解释影像结果、生成结构化的临床试验资格报告,或协助医生遵循诊疗指南[2、7]。关键在于,当 LLMs 与“同时处理影像和文本的多模态基础模型”结合时,便能实现真正的“视觉-语言推理”能力[3、10]。例如,某 AI 智能体可分析 OCT 图像,结合患者病史进行交叉验证,并用术者熟悉的语言生成“治疗升级建议”(图2)


图片
图2  LLMs 在眼科的主要应用场景示意图说明:将患者信息(症状、病史及相关健康数据)输入 LLMs ,模型生成临床洞见,为医生决策提供支持,应用领域涵盖普通眼科、视网膜疾病、眼前段疾病、青光眼与眼整形等




应用障碍

尽管 LLMs 与基础模型具有变革性,但要实现其在眼科领域的公平应用,仍需克服多重挑战。
数据多样性不足
当前模型的训练数据集多来自少数高收入国家。若将其部署到患者人口结构、成像设备或疾病患病率不同的地区,可能产生偏差[4、9]
信任与可解释性问题
临床医生对“黑箱”系统仍持谨慎态度。例如,某模型可预测地图样萎缩的进展,却无法解释依赖哪些生物标志物,这类模型难以获得真正的临床认可[5]■ 监管障碍与功能单一的 AI 工具不同,基础模型属于通用型技术,难以通过现有医疗设备法规的认证[5]■ 基础设施缺口运行多模态 LLMs 需要云计算、稳定的网络及安全的数据传输通道,而许多中低收入国家的诊所缺乏这些资源[8]




构建负责任的AI生态系统

历史经验表明,AI 工具只有嵌入支持性生态系统才能成功落地。对于眼科领域的 LLMs 与基础模型而言,这意味着:
多学科协作开发
眼科医生、数据科学家、伦理学家及患者倡导者需共同参与系统开发,确保模型具备临床相关性、符合伦理要求且以患者为中心[1、2、5]
联合与隐私保护学习
为解决数据获取与隐私保护的矛盾,联合学习框架可让模型在“不转移敏感患者信息”的前提下,从分布式数据集中学习[3、9]■ 人机交互验证LLMs 应作为医生的辅助工具,而非替代者。将“AI 预筛查”与“医生监督”结合的结构化工作流,可确保责任可追溯且保障医疗安全[6、7]■ 全球合作Global RETFound Consortium(全球 RETFound 联盟)、EyeFM 国际合作伙伴等项目正构建合作网络,确保模型在多样化人群中完成训练与验证[4、8]




下一个前沿:眼科AI的公平性

最终目标并非仅追求技术进步,而是实现“AI 公平性”,确保 LLMs 与基础模型的益处能覆盖所有患者,无论其地理位置、基础设施条件或社会经济地位如何[4、8]


试想在非洲农村的一家资源匮乏诊所:这里仅有基础眼底相机与网络连接,但基于云的基础模型(如 EyeFM)可在几分钟内完成图像分析、生成当地语言的诊断报告,并给出转诊建议[8]


对患者而言,公平性还意味着“赋能”:由 LLMs 驱动的 AI 门户可将复杂的影像结果转化为易懂内容、跟踪疾病进展,并协助患者参与临床试验[6、7]

对研究人员与制药企业而言,公平部署能拓展数据集范围,让此前代表性不足的人群纳入全球研究。这不仅提升了公平性,还能增强 AI 系统的稳健性与泛化能力[3、4、10]




结论

LLMs 与基础模型的融合,标志着眼科领域迎来关键转折点。我们正从“单任务算法”迈向“通用 AI 智能体”,这类智能体能够连接影像、语言与临床推理[3、4、9、10]。但只有解决“AI 公平性”这一紧迫挑战,这些技术的潜力才能真正落地[4、8]

眼科 AI 的未来,核心并非仅追求模型性能,而是关注“可及性”、“信任度”与“公平性”。通过投资全球合作、完善基础设施、构建包容性数据集,我们有望让 RETFound、RetiZero、EyeFM 等模型不再仅为资源优越地区提升医疗效率,而是为所有人普及眼健康服务[1、2、4]

■ 问答环节Q1:与传统 AI 算法相比,基础模型在眼科领域的主要优势是什么?A. 完全无需眼科医生参与
B. 可跨多项任务与多种模态泛化 ✅ 
C. 仅适用于糖尿病视网膜病变
D. 训练无需数据

Q2:LLMs 在眼科临床工作流中如何应用?
A. 设计新型成像设备
B. 审核影像报告并生成结构化输出 ✅
C. 执行手术操作
D. 制造人工晶状体

Q3:当前眼科 AI 数据集存在的主要问题是什么?
A. 不包含 OCT 图像
B. 多来自高收入国家,易产生偏差 ✅
C. 规模过小,无实用价值
D. 完全为合成数据

Q4:眼科 AI 的下一个前沿领域是什么?
A. 提升 OCT 分辨率
B. 扩大白内障手术可及性
C. 实现 AI 公平性与全球公平 ✅
D. 减少医院人员培训需求

Q5:为何部署 LLMs 与基础模型需要支持性生态系统?
A. 降低网络成本
B. 确保多学科协作与医疗安全 ✅
C. 完全替代眼科医生
D. 避免使用临床数据

有关该领域最新发展的更多内容,请参阅2025年版的《眼科人工智能》一书:https://link.springer.com/book/10.1007/978-3-031-83756-2(中文版,2024年)
图片





参考文献

(上下滑动可查看)
[1] Kai Jin, T Yu, Andrzej Grzybowski, “Multimodal artificial intelligence in ophthalmology: Applications, challenges, and future directions,” Surv Ophthalmol, S0039-6257 (25) 00120-1 (2025).(《眼科多模态人工智能:应用、挑战与未来方向》,《眼科学综述》,2025 年)
[2] Kai Jin, Andrzej Grzybowski, “Advancements in artificial intelligence for the diagnosis and management of anterior segment diseases,” Curr Opin Ophthalmol, 4:335 (2025).(《人工智能在眼前段疾病诊断与管理中的进展》,《眼科新观点》,2025 年)
[3] D Shi et al., “A multimodal visual–language foundation model for computational ophthalmology,” NPJ Digit Med, 8:381 (2025).(《面向计算眼科的多模态视觉 - 语言基础模型》,《自然合作期刊 - 数字医学》,2025 年)
[4] YC Tham et al. (Global RETFound Consortium), “Building the world’s first truly global medical foundation model,” Nat Med, 31:1452 (2025).(YC Tham 等(全球 RETFound 联盟),《构建全球首个真正的全球性医疗基础模型》,《自然医学》,2025 年)
[5] Andrzej Grzybowski, Kai Jin, H Wu, “Challenges of artificial intelligence in medicine and dermatology,” Clin Dermatol, 42:47 (2024).(《人工智能在医学与皮肤病学领域的挑战》,《临床皮肤病学》,2024 年)
[6] Z Su et al., “Assessment of large language models in cataract care information provision: A quantitative comparison,” Ophthalmol Ther, 13:1321 (2024).(《大语言模型在白内障医疗信息提供中的表现评估:一项定量比较研究》,《眼科治疗学》,2024 年)
[7] D Kang et al., “Evaluating the efficacy of large language models in guiding treatment decisions for pediatric myopia: An observational study,” Ophthalmol Ther, 14:705 (2025).(《大语言模型指导儿童近视治疗决策的疗效评估:一项观察性研究》,《眼科治疗学》,2025 年)
[8] Y Wu et al., “An eyecare foundation model for clinical assistance: a randomized controlled trial,” Nat Med, 31:1675 (2025).(《用于临床辅助的眼科基础模型:一项随机对照试验》,《自然医学》,2025 年)
[9] Y Zhou et al., “A foundation model for generalizable disease detection from retinal images,” Nature, 622:156 (2023).(《基于视网膜图像实现泛化性疾病检测的基础模型》,《自然》,2023 年)
[10] M Wang et al., “Enhancing diagnostic accuracy in rare and common fundus diseases with a knowledge-rich vision-language model,” Nat Commun, 16:5528 (2025).(《借助知识丰富的视觉 - 语言模型提升罕见与常见眼底疾病的诊断准确性》,《自然通讯》,2025 年)



图片






医脉通是专业的在线医生平台,“感知世界医学脉搏,助力中国临床决策”是平台的使命。医脉通旗下拥有「临床指南」「用药参考」「医学文献王」「医知源」「e研通」「e脉播」等系列产品,全面满足医学工作者临床决策、获取新知及提升科研效率等方面的需求。


本平台旨在为医疗卫生专业人士传递更多医学信息。本平台发布的内容,不能以任何方式取代专业的医疗指导,也不应被视为诊疗建议。如该等信息被用于了解医学信息以外的目的,本平台不承担相关责任。本平台对发布的内容,并不代表同意其描述和观点。若涉及版权问题,烦请权利人与我们联系,我们将尽快处理。

图片