大语言模型与基础模型在眼科领域的应用

来源： 2025.10.29

我要投稿

“未来已来，只是尚未均匀分布。”

William Gibson 这句常被引用却依旧极具预见性的话，完美契合当下眼科人工智能（Artificial Intelligence，AI）发展的时代背景。大语言模型（Large Language Models，LLMs）与基础模型已不再是遥不可及的未来概念，它们正迅速改变临床医生、研究人员及患者参与眼健康管理的方式^[1、2]。然而，与所有颠覆性技术一样，其益处的可及性存在显著差异，这引发了关于“获取渠道”、“信任度”与“负责任部署”的一系列问题。

基础模型为何对眼科至关重要？

眼科领域一直处于医学影像技术的前沿，眼底摄影、光学相干断层扫描、血管造影等成像方式会产生海量数据集，这些数据集正是 AI 开发的理想素材^[1、3]。但直至近期，大多数算法的应用范围仍较为狭窄，仅针对单一疾病、单一任务或单一成像方式训练。而基础模型（即基于海量多样化数据集预训练的大型神经网络）的出现，彻底改变了这一范式^[4、9]。

此类模型，如 RETFound、RetiZero、EyeFM，以及适用于眼科的多模态智能体 ChatGPT-5 等，都具备跨任务、跨领域的泛化能力^[3、4、8]。无需为糖尿病视网膜病变筛查单独构建一套算法，再为年龄相关性黄斑变性构建另一套算法：基础模型通过微调即可完成多项任务，从疾病检测到预后预测，甚至生成自然语言报告^[9、10]。

其影响力深远，基础模型有望为整个眼科医疗服务链条提供支持，既包括资源匮乏诊所的分诊工作，也涵盖学术医院的高级亚专科诊疗决策^[4、8]。

LLMs 在眼科医疗中的兴起

尽管基于影像的模型在眼科 AI 领域占据主导地位，但 LLMs 正悄然革新医疗服务中“文本处理”与“医患沟通”层面的工作^[6、7]。在临床工作流中，住院医师与技术人员每天需撰写数千份影像报告（图1），再由眼科医生逐一审核。早期采用 ChatGPT-4o 进行报告审核的试点项目显示，LLMs 检测报告中不一致性与错误的准确率可与人类专家媲美，同时还能节省时间与成本^[6]。

图1 LLMs 在眼科的工作流程示意图说明：文本数据（如症状、病史）与影像数据（如 OCT、FFA）被联合编码后，输入预训练模型处理，最终解码为临床相关输出。应用场景包括自动问答、诊断、信息检索、筛查、总结、影像分析与预测建模

除报告审核外，LLMs 还可作为“临床辅助工具”，用通俗语言向患者解释影像结果、生成结构化的临床试验资格报告，或协助医生遵循诊疗指南^[2、7]。关键在于，当 LLMs 与“同时处理影像和文本的多模态基础模型”结合时，便能实现真正的“视觉-语言推理”能力^[3、10]。例如，某 AI 智能体可分析 OCT 图像，结合患者病史进行交叉验证，并用术者熟悉的语言生成“治疗升级建议”（图2）。

图2 LLMs 在眼科的主要应用场景示意图说明：将患者信息（症状、病史及相关健康数据）输入 LLMs ，模型生成临床洞见，为医生决策提供支持，应用领域涵盖普通眼科、视网膜疾病、眼前段疾病、青光眼与眼整形等

应用障碍

尽管 LLMs 与基础模型具有变革性，但要实现其在眼科领域的公平应用，仍需克服多重挑战。■
数据多样性不足当前模型的训练数据集多来自少数高收入国家。若将其部署到患者人口结构、成像设备或疾病患病率不同的地区，可能产生偏差^[4、9]。■
信任与可解释性问题临床医生对“黑箱”系统仍持谨慎态度。例如，某模型可预测地图样萎缩的进展，却无法解释依赖哪些生物标志物，这类模型难以获得真正的临床认可^[5]。■ 监管障碍与功能单一的 AI 工具不同，基础模型属于通用型技术，难以通过现有医疗设备法规的认证^[5]。■ 基础设施缺口运行多模态 LLMs 需要云计算、稳定的网络及安全的数据传输通道，而许多中低收入国家的诊所缺乏这些资源^[8]。

构建负责任的AI生态系统

历史经验表明，AI 工具只有嵌入支持性生态系统才能成功落地。对于眼科领域的 LLMs 与基础模型而言，这意味着：■
多学科协作开发眼科医生、数据科学家、伦理学家及患者倡导者需共同参与系统开发，确保模型具备临床相关性、符合伦理要求且以患者为中心^[1、2、5]。■
联合与隐私保护学习为解决数据获取与隐私保护的矛盾，联合学习框架可让模型在“不转移敏感患者信息”的前提下，从分布式数据集中学习^[3、9]。■ 人机交互验证LLMs 应作为医生的辅助工具，而非替代者。将“AI 预筛查”与“医生监督”结合的结构化工作流，可确保责任可追溯且保障医疗安全^[6、7]。■ 全球合作Global RETFound Consortium（全球 RETFound 联盟）、EyeFM 国际合作伙伴等项目正构建合作网络，确保模型在多样化人群中完成训练与验证^[4、8]。

下一个前沿：眼科AI的公平性

最终目标并非仅追求技术进步，而是实现“AI 公平性”，确保 LLMs 与基础模型的益处能覆盖所有患者，无论其地理位置、基础设施条件或社会经济地位如何^[4、8]。

试想在非洲农村的一家资源匮乏诊所：这里仅有基础眼底相机与网络连接，但基于云的基础模型（如 EyeFM）可在几分钟内完成图像分析、生成当地语言的诊断报告，并给出转诊建议^[8]。

对患者而言，公平性还意味着“赋能”：由 LLMs 驱动的 AI 门户可将复杂的影像结果转化为易懂内容、跟踪疾病进展，并协助患者参与临床试验^[6、7]。

对研究人员与制药企业而言，公平部署能拓展数据集范围，让此前代表性不足的人群纳入全球研究。这不仅提升了公平性，还能增强 AI 系统的稳健性与泛化能力^[3、4、10]。

结论

LLMs 与基础模型的融合，标志着眼科领域迎来关键转折点。我们正从“单任务算法”迈向“通用 AI 智能体”，这类智能体能够连接影像、语言与临床推理^{[3、4、9、10]}。但只有解决“AI 公平性”这一紧迫挑战，这些技术的潜力才能真正落地^[4、8]。

眼科 AI 的未来，核心并非仅追求模型性能，而是关注“可及性”、“信任度”与“公平性”。通过投资全球合作、完善基础设施、构建包容性数据集，我们有望让 RETFound、RetiZero、EyeFM 等模型不再仅为资源优越地区提升医疗效率，而是为所有人普及眼健康服务^[1、2、4]。

■ 问答环节Q1：与传统 AI 算法相比，基础模型在眼科领域的主要优势是什么？A. 完全无需眼科医生参与
B. 可跨多项任务与多种模态泛化 ✅
C. 仅适用于糖尿病视网膜病变
D. 训练无需数据

Q2：LLMs 在眼科临床工作流中如何应用？
A. 设计新型成像设备
B. 审核影像报告并生成结构化输出 ✅
C. 执行手术操作
D. 制造人工晶状体

Q3：当前眼科 AI 数据集存在的主要问题是什么？
A. 不包含 OCT 图像
B. 多来自高收入国家，易产生偏差 ✅
C. 规模过小，无实用价值
D. 完全为合成数据

Q4：眼科 AI 的下一个前沿领域是什么？
A. 提升 OCT 分辨率
B. 扩大白内障手术可及性
C. 实现 AI 公平性与全球公平 ✅
D. 减少医院人员培训需求

Q5：为何部署 LLMs 与基础模型需要支持性生态系统？
A. 降低网络成本
B. 确保多学科协作与医疗安全 ✅
C. 完全替代眼科医生
D. 避免使用临床数据

有关该领域最新发展的更多内容，请参阅2025年版的《眼科人工智能》一书：https://link.springer.com/book/10.1007/978-3-031-83756-2（中文版，2024年）

参考文献

（上下滑动可查看）

[1] Kai Jin, T Yu, Andrzej Grzybowski, “Multimodal artificial intelligence in ophthalmology: Applications, challenges, and future directions,” Surv Ophthalmol, S0039-6257 (25) 00120-1 (2025).（《眼科多模态人工智能：应用、挑战与未来方向》，《眼科学综述》，2025 年）
[2] Kai Jin, Andrzej Grzybowski, “Advancements in artificial intelligence for the diagnosis and management of anterior segment diseases,” Curr Opin Ophthalmol, 4:335 (2025).（《人工智能在眼前段疾病诊断与管理中的进展》，《眼科新观点》，2025 年）
[3] D Shi et al., “A multimodal visual–language foundation model for computational ophthalmology,” NPJ Digit Med, 8:381 (2025).（《面向计算眼科的多模态视觉 - 语言基础模型》，《自然合作期刊 - 数字医学》，2025 年）
[4] YC Tham et al. (Global RETFound Consortium), “Building the world’s first truly global medical foundation model,” Nat Med, 31:1452 (2025).（YC Tham 等（全球 RETFound 联盟），《构建全球首个真正的全球性医疗基础模型》，《自然医学》，2025 年）
[5] Andrzej Grzybowski, Kai Jin, H Wu, “Challenges of artificial intelligence in medicine and dermatology,” Clin Dermatol, 42:47 (2024).（《人工智能在医学与皮肤病学领域的挑战》，《临床皮肤病学》，2024 年）
[6] Z Su et al., “Assessment of large language models in cataract care information provision: A quantitative comparison,” Ophthalmol Ther, 13:1321 (2024).（《大语言模型在白内障医疗信息提供中的表现评估：一项定量比较研究》，《眼科治疗学》，2024 年）
[7] D Kang et al., “Evaluating the efficacy of large language models in guiding treatment decisions for pediatric myopia: An observational study,” Ophthalmol Ther, 14:705 (2025).（《大语言模型指导儿童近视治疗决策的疗效评估：一项观察性研究》，《眼科治疗学》，2025 年）
[8] Y Wu et al., “An eyecare foundation model for clinical assistance: a randomized controlled trial,” Nat Med, 31:1675 (2025).（《用于临床辅助的眼科基础模型：一项随机对照试验》，《自然医学》，2025 年）
[9] Y Zhou et al., “A foundation model for generalizable disease detection from retinal images,” Nature, 622:156 (2023).（《基于视网膜图像实现泛化性疾病检测的基础模型》，《自然》，2023 年）
[10] M Wang et al., “Enhancing diagnostic accuracy in rare and common fundus diseases with a knowledge-rich vision-language model,” Nat Commun, 16:5528 (2025).（《借助知识丰富的视觉 - 语言模型提升罕见与常见眼底疾病的诊断准确性》，《自然通讯》，2025 年）

医脉通是专业的在线医生平台，“感知世界医学脉搏，助力中国临床决策”是平台的使命。医脉通旗下拥有「临床指南」「用药参考」「医学文献王」「医知源」「e研通」「e脉播」等系列产品，全面满足医学工作者临床决策、获取新知及提升科研效率等方面的需求。

本平台旨在为医疗卫生专业人士传递更多医学信息。本平台发布的内容，不能以任何方式取代专业的医疗指导，也不应被视为诊疗建议。如该等信息被用于了解医学信息以外的目的，本平台不承担相关责任。本平台对发布的内容，并不代表同意其描述和观点。若涉及版权问题，烦请权利人与我们联系，我们将尽快处理。