国内首个脑血管专病大模型亮相 对话参与医生:最初心里没有底,后来AI证明我是错的

距离谷歌大模型(Med-PaLM 2)拿下美国医学执照考试已经快两年了,人工智能(AI)够资格成为临床医生的“假想敌”了吗?

今年7月,一篇发表于Nature Medicine的论文显示,即使是目前最先进的大语言模型(LLM)也无法为所有患者做出准确诊断,且诊断正确率(73%)明显差于人类医生(89%);在极端情况(胆囊炎诊断)下,LLM的正确率仅为13%。

但对于北京清华长庚医院神经中心医师邳靖陶来说,他今年刚被AI“上了一课”。8月下旬,邳靖陶参与的灵犀医学脑血管病专病大模型正式发布,该模型由其所在医院的神经中心武剑教授团队主导研发,是国内首个基于专病的医学人工智能模型。

“大模型的能力说强也强,说弱也弱,我们不能让它天马行空地自由发挥。”邳靖陶表示,专病大模型与ChatGPT的最大不同,是要将AI杜撰的似是而非的诊疗建议扼杀在摇篮里,避免灾难性后果。

国内首个脑血管专病大模型亮相 对话参与医生:最初心里没有底,后来AI证明我是错的-第1张-综合新闻-河道工程网
清华大学附属北京清华长庚医院神经中心教授武剑 图片来源:受访者提供

专病大模型对标基层最缺的专科专家

作为国内四大慢病之一,脑血管病的首次发病者约有2/3是60岁以上的老年人,其具有“高发病率、高患病率、高死亡率、高复发率”的特点。而截至2021年,我国65岁以上的老年人口已经超过2亿人,脑血管病医生短缺、水平参差不齐的问题尤为突出。

“基层医院不缺全科医生,但缺专科专家或专病专家,这就是大模型要解决的问题。”邳靖陶介绍,脑血管病专病大模型是医疗机构与科技企业的合作产物。具体来说,新华三集团提供技术人员、AI算法和算力,北京清华长庚医院和清华大学提供大数据和临床需求,共同打造一款面向临床医生的辅助诊断工具。

武剑教授曾表示,医学人工智能在缓解医疗资源紧张和提升医疗服务水平方面,具有巨大的潜力和优势。其核心在于对海量健康数据的深度挖掘和智能分析,这能够大幅提升临床诊断和治疗的准确性与效率。

目前,这个大模型的核心功能是分析和提取病历中的关键信息,并与临床知识库相匹配,最终提供符合临床指南的标准化治疗建议。

一方面,临床医生可以输入脱敏(不包括患者个人信息)的临床病程信息,由大模型生成最终的治疗方案。期间,如果大模型察觉到病程信息存在疏漏,会提醒医生及时补充,保证病历记录的标准化。

另一方面,临床医生也可以输入患者主诉(如主要症状和持续时间等信息)等简单信息,大模型将通过选择性交互引导问诊方向,根据医生点击的选项,逐步完善临床诊疗过程,提升医生的循证能力。

想让大模型“听话”,得说它“听得懂”的话

在邳靖陶看来,与ChatGPT等通用大模型相比,专病大模型的专业性体现在思维链和知识库两方面。以脑血管病专病大模型为例,其数据来源包括两大部分:一部分是经过脱敏处理的临床资料,涉及疾病的特定特征,发病情况以及诊疗过程等综合信息。另一部分是公开获取的临床指南、大量神经病学和神经科学的教科书和参考书籍,这些构成了数据库的核心内容。值得注意的是,大模型并不能直接接收这些知识,而是需要经临床医生和工科团队之手,将临床指南的框架和重点内容重新整理,转化为计算机能够理解的语言和流程后,再输给大模型。

“如果不加限制地直接投喂,大模型会发散到其他方面,生成一些新的理解。但临床指南已经是最高级别的标准化诊疗推荐,在此基础上的任何修改都是错误的,也不是我们想要的。”邳靖陶告诉记者,想让大模型“听话”,除了要投喂计算机能“听懂”的知识,更关键的是教给它一套临床医生的“思维链”,并依托这一能力对不同患者的临床资料进行推理。

例如,一位脑血管病医生的诊疗流程大致包括询问病史,进行体格检查,考虑辅助检查,综合分析后给出准确诊断等环节。基于诊断结果,医生会考虑患者的具体病因和其他基础疾病情况,结合标准化的诊疗建议,制定规范化的治疗方案。

在这个过程中,不同的患者主诉指向不同的询问方向。但问题是,大模型的思维虽然“发散”,但不具备自主搭建思维链的能力,所以需要工科团队深刻理解临床诊疗场景,将医生的临床思维转换为机器可以理解的思维。而这个过程让临床医生和技术团队,都经历了交叉学习的历练。

“Gap(差距)主要是语言交流上的障碍,比如我们不理解思维链,他们不理解不同疾病间的关系。但这不会对我们的研究造成实质性影响,只要了解对方领域的基础知识,就能扫清困难。”邳靖陶说。

国内首个脑血管专病大模型亮相 对话参与医生:最初心里没有底,后来AI证明我是错的-第2张-综合新闻-河道工程网
图片来源:受访者提供

AI给出预期相反的诊断,最后发现医生错了

邳靖陶透露,目前脑血管病专病大模型正在北京清华长庚医院神经中心进行临床验证。此前,他和同事们曾使用真实病例或模拟复杂临床场景,对大模型进行过内部测试。这项测试建立在前期简单测试的基础之上,旨在评估大模型对不同复杂程度、不同语言风格和不同级别医生的病历的理解能力。

其中,最困扰邳靖陶的一个问题是,如果大模型出现了错误,怎么保证临床医生不受干扰呢?换言之,临床医生应该怎么处理自己和大模型之间的关系?

这一矛盾在首次内部测试时就出现了。当时,邳靖陶模拟了一个复杂的临床场景,大模型给出的治疗方案和预想的“标准答案”有所出入。随后,技术人员介入并回溯了大模型的推理过程,试图找出可能的错误,却无功而返。

而当邳靖陶用“标准答案”去匹配临床指南时,让他印象深刻的结果出现了:是自己的诊疗思路存在盲区。

“一开始这个模型设计出来,到底能不能用于临床,能不能起到提升和改善(诊疗效率)的作用,其实我心里也没有底。但是这件事儿之后,给了我特别大的底气。”邳靖陶总结这次经历,发现患者的临床症状是一个综合结果。例如,患者可能因为神经系统问题住院,但心血管、肾脏、肝脏状况也在发生变化。尽管医生接受过规范化的专科培训,但诊疗思维仍可能存在盲点,无法保证每次都能提供全面的诊疗方案。

另外,临床指南是不断更新的,并非所有医生都能及时更新知识。当医生的知识更新滞后时,大模型可以帮助弥补这些纰漏。

不过,阅读指南并做出判断,仍是临床医生不能丢弃的基本功。邳靖陶表示,如果医生发现大模型提供的诊疗方案与自己的判断不符,不应简单地接受或拒绝,而应深入探究原因。这一思考过程有助于医生提高临床诊疗能力,是大模型作为临床辅助诊断工具的终极愿景。毕竟,虽然大模型可以提供结论,但对诊疗过程负责的仍是临床医生本人。

“专病-专科-全科”是临床大模型必经之路

2023年7月,谷歌Research和DeepMind共同打造的全球首个全科医疗大模型Med-PaLM M正式发布。资料显示,这个大模型具备临床语言、影像和基因组学的理解能力,用于临床指日可待。

而根据《2023医疗健康AI大模型行业研究报告》,截至2023年10月,国内累计公开的大模型数量达到238个,其中,医疗大模型近50个,涉及患者问诊、医生助手、药物研发、健康科普等多个领域。据邳靖陶观察,许多医疗大模型的开发从“全科”出发,直接构建一个涵盖所有专科的大型全科模型,供用户咨询各种疾病。

但在参与构建脑血管病专病大模型后,武剑教授团队对这一模式表示怀疑。他们发现,把一种疾病的临床指南梳理清楚颇具难度,打造对应的思维链也耗时耗力,短期内很难用同样的方法训练出全科模型。换言之,目前的全科大模型能够做到医学科普,但很难在特定专科领域提供有效的临床指导。因此,武剑教授团队的研发思路是以专病为起点,再走向全科。

“如果针对脑血管病的专病大模型走通了,我们可以把成功经验复制到其他神经系统疾病上;如果神经系统疾病覆盖全面了,就成了专科大模型;神经科的经验再复制到其他科,就会形成一个真正的全科医疗大模型。”邳靖陶表示,在武剑教授看来,国内发病人数越多、疾病负担越大的疾病,其专病大模型的临床需求和研发空间就会越大,例如国家发病率最高的四大慢病——高血压、糖尿病、冠心病、脑血管病都有非常广阔的大模型开发空间。

而在脑血管病专病大模型的发布会上,武剑教授已经通过招募令的形式,呼吁全国神经系统疾病领域的专家,以及人工智能领域的专业人士携手把握创新技术的改革可能,改善临床诊疗现状。他曾表示,如果能打破学术壁垒,医疗大模型的重复性工作是完全可以避免的。

“这不是我们一个人能做的事情。”邳靖陶说。

免责声明:本文章由会员“极目新闻”发布如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系