《人工智能大模型赋能医疗健康产业白皮书(2023).docx》由会员分享,可在线阅读,更多相关《人工智能大模型赋能医疗健康产业白皮书(2023).docx(78页珍藏版)》请在课桌文档上搜索。
1、人工智能大模型赋能医疗健康产业白皮书(2023年)2023年10月编制说明牵头单位人工智能医疗器械创新合作平台智能化医疗器械产业发展研究工作组、中国信息通信研究院云计算与大数据研究所参编单位北京邮电大学、北京大学、中国科学技术大学、北京大学第三医院、首都医科大学附属北京友谊医院、解放军总医院第六医学中心、温州医科大学附属眼视光医院、江苏省中医院、温州眼视光国际创新中心、国家药监局智能化医疗器械研究与评价重点实验室、网络与交换技术全国重点实验室、互联网医疗健康产业联盟、阿里云计算有限公司、腾讯医疗健康(深圳)有限公司、北京百度网讯科技有限公司、商汤科技、OPPo广东移动通信有限公司刖三随着全球新
2、一轮科技革命和产业变革深入发展,以人工智能(ArtificialIntelligence,Al)为代表的数字技术加速演进,成为经济增长的核心驱动力。近年来,人工智能大规模预训练模型(以下简称“大模型“)在知识、数据、算法和算力等关键要素的共同推动下,呈现爆发式增长,从自然语言处理逐步扩展、迁移到计算机视觉、多模态、科学计算等领域,增强了人工智能的泛化性、通用性,开启了人工智能发展新范式。人工智能大模型有望成为未来新型基础设施,赋能千行百业新一轮增长,落地应用和价值实现成为大模型下一步发展方向。生命科学和医疗健康是大模型等Al技术最重要的应用领域之一,大模型可赋能生命科学研究和新药研发,促进医疗
3、器械创新,提升医疗智能化水平。将大模型应用于医疗健康领域,推动医疗健康行业数字化转型升级,对满足人民群众健康需求和实现经济社会绿色、智能、可持续发展具有重要意义。本白皮书集中梳理了国内外医疗健康大模型的最新态势及发展成果,尤其是技术体系、应用场景、风险挑战、评价和监管等方面的内容。白皮书首先阐述了医疗健康大模型的概念内涵、发展优势、生态架构;对医疗健康大模型技术体系和演进趋势进行了分析;并对医疗健康大模型应用现状及优秀应用案例进行了系统性梳理。在此基础上,白皮书分析了医疗健康大模型面临的技术、应用、数据、伦理挑战,并结合医疗健康大模型标准、验证评价和监管治理情况,提出了进一步促进医疗健康大模型
4、发展的相关建议。白皮书旨在为我国生命科学与医疗健康大模型技术和产业发展提供参考和引导,共同推动技术研发创新,促进行业高质量发展。由于生命科学与医疗健康大模型仍处于快速发展阶段,我们的认识还有待持续深化,白皮书仍有不足之处,欢迎大家批评指正。下一步,我们将广泛采纳各方面的建议,进一步深入相关研究,适时发布新版报告。我们诚邀各界专家学者参与我们的研究工作,积极献言献策,为促进生命科学与医疗健康大模型发展作出贡献。一、医疗健康大模型发展概述9(一)医疗健康大模型的概念和优势9(二)医疗健康大模型的生态架构11二、医疔健康大模型的技术体系及演进14(一)大模型响应生物大数据时代的数据特征和应用需求14
5、(二)多类型基础模型为医疗健康大模型提供坚实源动力19(三)四种范式助力大模型在医疗健康垂直领域的应用实践.28(四)模型发展呈现家族化、多模态、融合化、协同化趋势.35三、医疗健康大模型的应用场景39(一)整体发展分析40(二)具体场景分析46四、医疗健康大模型面临的风险与挑战68(一)技术风险:精度不够,尚不能完全满足医疗场景安全性可靠性需求68(二)落地挑战:数据、成本、权责问题制约大模型在医疗领域落地应用70(三)数据安全和隐私:个人数据滥用、隐私泄露和网络攻击风险突出72(四)伦理道德问题:大模型加剧医疗偏见和有害、虚假信息传73播问题(一)标准和指南:基础信息安全标准开始起步,领域
6、平台规范指南需求迫切74(二)评价和验证:针对新能力、新特性、真实表现的动态评估方法有待建立76(三)政策和监管:促发展与防风险并重,奠定医疗大模型监管治理良好基础78六、医疗健康大模型发展建议80图目录图1人工智能大模型+医疗健康生态架构12图2人工智能发展历程16图3医疗健康大模型的类别和实例20图4LLaVA-Med的预训练和微调流程23图5Med-PaLMM所用基准数据集的模态和任务28图6生命科学与医疗领域开发与应用大模型的四种范式29图7GatOrTron模型的预训练和微调过程30图8BioBERT的预训练和微调过程32图9ChatDoctor模型的构建过程34图10Med-PaL
7、M2采用多种路径提升推理能力35图11ClinicalGPT的训练及对齐流程41图12商量大医模型工作原理和应用场景43图13灵医大模型输入“医-患-药”医疗健康数据和医学知识45图14灵医大模型的商业化服务模式46图15EyeGPT根据需求输出研究题目的文章大纲50图16未来EyeGPT在眼健康智能诊断一体化应用示范50图17腾讯医疗大模型多轮问询和智能问诊示意图59图18神经源性膀胱慢病管埋数字疗法平台示意图63图19运动健康助手应用架构和界面65-、医疗健康大模型发展概述(一)医疗健康大模型的概念和优势人工智能大模型(Al大模型)是“大数据+大算力+强算法”结合的深度神经网络模型,通过“
8、预训练+微调”模式增强了人工智能的通用性、泛化性,带来人工智能研发新范式,成为迈向通用人工智能(ArtificialGeneralIntelligence,AGI)的重要技术路径。AI大模型基于海量无标注数据进行预训练,提升模型前期学习的广度、深度和知识水平,从而能够低成本、高适应性地赋能大模型在后续下游任务中的应用。当模型参数规模足够大时,AI大模型出现“智能涌现(IntelligenceEmerging),例如少样本或零样本等能力!。因此,基于Al大模型进行下游应用开发时,对预训练好的大模型进行领域知识微调训练(在下游特定任务上的小规模有标注数据进行二次训练)或使用提示词工程,即可高水平地
9、完成多个应用场景的任务,实现通用的智能能力。AI大模型是实现多种人工智能应用的通用载体,或成为未来整个人工智能生态的核心。医疗健康大模型是面向复杂、开放医疗健康场景的基础大模型,具有大数据、大算力、大参数等关键要素,呈现涌现能力和良好的泛化性、通用性,可以根据不同的医疗健康任务,利用语言、视觉、语音乃至多模态融合的生物医学数据进行“预训练-微调”,从而为医疗健康领域提供高效、准确、个性化的服务和支持。大模型技术的突破,为医疗人工智能的发展注入新动力。相比传统的执行特定任务的医疗Al模型,大模型具有如下优势和潜力。一是大模型可应用于多个下游任务。现有医疗人工智能模型主要采用针对特定任务的模型开发
10、方法,在标记数据上进行训练,用于单任务学习。在美国食品和药品管理局(FDA)批准的521款临床医疗人工智能模型产品中,大多数仅获得了1或2个任务的批准?。大模型具有较强的泛化能力和上下文学习能力,可以灵活、直接地应用于多个医疗任务,而无需特定任务的训练和标注数据23。二是大模型突破数据标注的困境。开发传统有监督的医疗人工智能模型时,需要大规模的标注数据才能形成运行良好的模型二大规模、高质量的标注数据集需要医疗领域专家的参与,成本高、时间长。大模型利用自监督学习或强化学习方式,在无标注数据上进行预训练,在一定程度上减轻了标注负担和创建大规模标注数据集的工作量,也更加适配生物医学、临床和健康相关各
11、类数据爆炸式增长的时代4。在一些可用数据较少的临床场景,大模型可带来显著的人工智能效果提升。三是大模型更加用户友好和易于使用。大模型具有接受人类的自然语言(汉语、英语等)作为输入的能力,这使得外行和医疗专业人员都能够方便地访问大模型,也使得复杂的医疗信息更易于访问和理解3。大模型还提供通过自定义查询与模型进行交互的能力2。在当前实践中,AI模型通常处理单一任务,并产生预先确定的输出(例如,当前模型可能会检测某种特定疾病,输入一种图像,并始终输出该疾病的可能性)。相比之下,大型语言模型具有强大的生成能力,能够以自然语言的方式进行自定义查询,而不是传统检索式的查询方式,允许用户提出更加多样、更加口
12、语化和更加自然的问题,诸如“这张头部MRl扫描图中的肿块更可能是肿瘤还是脓肿?”之类的问题。四是大模型有望支持更加灵活的多种数据模态组合运用。一些严格的多模态模型通常将预定义的模态集合作为输入和输出(例如,必须始终同时输入图像、文本和实验室结果)2。相比之下,大模型具有更灵活的多模态交互方式,有望使用各种数据模态接受输入和产生输出(例如,可以接受文本、图像、实验室结果或任何组合),支持用户自由地组合各种医疗数据模态类型。五是大模型具有更深入理解医学知识的潜力。与临床医生不同,医学AI模型在接受特定任务训练之前通常缺乏医学领域知识,必须仅依赖于输入数据特征与预测目标之间的统计关联,来推导数据关系
13、。当针对特定医学任务的数据很少时,模型表现不佳。而大模型具有更复杂的网络结构和更多参数,通过结合知识图谱结构、检索式方法等技术,可以学习大量医学知识,更深入、更全面地理解医学概念和它们之间的关系,检索上下文中类似案例。这使得大模型能够推理出以前未见过的任务,并使用医学准确的语言解释相关的输出2。(一)医疗健康大模型的生态架构人工智能大模型赋能生命科学与医疗领域发展的生态架构主要由“上游基础层-中游模型层-下游应用层”三层构成。鉴于生物数据的敏感性和医疗场景的严肃性,监管治理和安全能力对医疗健康大模型的负责任创新发展至关重要,贯穿于行业发展各领域和全过程。I沱依八助人,;1服务用户管治理ft%a
14、1B QG1MlrIIl品城统发1111小门EQI卜?11 S ” 国I Im 一 大型语言模里视觉大模型图学习大模型哈仔m卜多模态大模型I 72,I I 9J加工I I开发干音I I,t找I11 I I I物法研发校 . W KLaLiL-,兑力菸础设的数据基础设施I I 7据采用数据标注 11安全能力持定安全能图1人工智能大横型+医疗健康生态架构基础层提供算力和数据支撑资源。基础层是支撑Al大模型研发和应用落地的必要资源,包括算力基础设施和数据基础设施。其中,算力基础设施包括通用计算芯片、Al计算加速芯片、计算服务器、存储服务器、通信网络、云服务、容器/虚拟化等;数据基础设施涉及数据采集和
15、标注、生物信息学数据库、专病数据库、多模态医疗数据库资源等。模型层形成大模型研发、管理和运维体系。模型研发是在算法研发所需的编程环境(语言)、算法框架、开发平台和工具等基础上,研发产出大型语言模型、视觉大模型、图学习大模型、语言条件多智体大模型、多模态大模型以及生物计算大模型等,完成生物医学自然语言处理、生物医学图像识别、生物医学语音语义识别、生物分子设计等任务。模型管理和运维主要包括系统管理、接口管理、数据处理等。应用层实现药、械、医、健多场景触达用户。大模型首先赋能生命科学和药械研发,相关应用起步早、发展快、成果较为突出。同时,大模型在医学影像、医疗问答和智能问诊、辅助诊疗和临床决策支持、
16、医学信息提取和生成、行政流程优化、个人健康管理、医保商保、医学教育等方面的应用价值日益凸显,场景探索加速。大模型技术有望为生命科学与医疗行业多个环节带来更加精确、高效、人性化的服务,提升整个生态系统的质量和效率。二、医疗健康大模型的技术体系及演进(一)大模型响应生物大数据时代的数据特征和应用需求1 .大模型特点突出,赋能通用医疗人工智能发展大模型具有大参数、大数据、范式灵活、策略高效等特点。大模型是一种利用海量、多元化数据预训练的深度神经网络模型,能够在不同任务中实现信息生成和推理等能力,具有涌现能力和较强的泛化性、通用性、实用性,在医疗、交通、金融等众多垂直行业场景上,初步展现了惊艳的性能表
17、现和巨大的发展潜力。大模型通常基于Transformer等主流架构,通过自注意力机制和并行计算提高性能和泛化能力。大模型的主要特点有:1)参数规模巨大,从数亿到百万亿不等;2)数据量庞大,无标签数据用于预训练,数据规模可达数亿至万亿TOken;3)范式灵活,先用无监督学习预训练,再微调和适应各种下游任务;4)学习策略高效,能够在零样本、单样本或少样本的情况下,提取、总结、翻译和生成文本信息,甚至支持推理。大模型有望成为通用医疗人工智能的核心技术和基础设施。大模型具有高度灵活、可重复使用的技术特点,为通用医疗人工智能(GeneralistMedicalArtificialIntenigenCe,
18、GMAI)?提供了新的可能性。传统医疗人工智能模型是为解决特定任务而设计、训练的,依赖大量的有特异性注释和标签的数据集进行专门的训练,这种狭隘的、针对特定任务的方法使得模型僵化,只能适用于执行训练数据集和其标签预定义的任务。作为对比,大模型这一人工智能新范式是在大型、多样化的无标签数据集上进行自我监督学习而构建的,可应用于众多下游任务。多模态架构、自监督学习技术以及模型的上下文学习能力等新技术,使得基于大模型开发通用医疗人工智能成为可能3。未来医疗健康大模型有望灵活地解释不同的医学模态组合,包括来自成像、电子健康记录、实验室结果、基因组学、图表或医学文本的数据,并将产生表达能力更强的输出,例如
19、自由文本解释、口头建议或图像注释,展示高级医学推理能力。2 .大模型引领智能时代人工智能开发新范式新变革人工智能技术不断演进,进入数据驱动的新发展阶段。人工智能经历了漫长的孕育期,最早可追溯到亚里士多德的演绎逻辑,并随着人类对智能的认识不断深入而不断进化。1943年,麦卡洛克和皮茨研制出世界上第一个人工神经网络模型(MP模型),开创了以仿生学观点和结构化方法模拟人类智能的途径;1948年,美国数学家威纳创立了控制论;1950年,图灵明确提出“机器能思维”的观点;1956年,麦卡锡在达特茅斯大学夏季学术研讨会上首次提出“人工智能”术语,人工智能的发展进入到了第一个小高潮时期;随后,历经罗森布拉特
20、、瓦普尼克、沃伯斯等人的努力,多层感知机(MLP)和反向传播算法逐渐成熟并得到广泛应用;1980年,机器学习成为人工智能发展的独立分支,从数据中获取经验,打破了基于规则建模的困境;2006年,辛顿正式提出了深度学习的概念,人工智能进入了第二个小高潮时期,针对特定应用场景专门训练的深度神经网络,即小模型,开始不断涌现。知识、财S、班和算力W知冕班般展,催生出,大触T人工智呻能式*tW深度学R (2006:?顿) Iranxfornrr 架构2017谷歌) /I模型(2018谷歌)三点知板应用黑 *Att 1976圻根蝇附;1981杜达)从学量分立Jft肉筋合三分立(专家系统为标志 的符号主义学派
21、,以神经网珞为标志的联结主义学派.以HS知动作1式为标志的行 为土义学派)知飒工程系 197;噌根施期),机学习成力独任分支 EMT*M* 谈 2BP H (1986*WWW GPT 型(2018 OpenMJ ViTM 22O 谷加Transfbnner开创了新一类深度学习基础模型9WM 法(变更士多IS)提出(1956麦卡竭力 数3Uy俗尼茨)知也IM8罗森 JUlMhl936!B灵)布拉翻 *(1%3麦卡洛克和皮茨) Ji用电子计算机(1946契克利) 控制的1例8城纳3, ”(1950由员)1966年.1951970W19801990r-199Qi2000fi来源:中国信息通信研究院图
22、2人工智能发展历程以深度学习为代表的人工智能,本质上是一种数据驱动的智能,首先进行模型训练,从大量的数据中“学习”出一些规则而生成一个模型;然后进行模型推理,运用这些规则来解决实际问题。生物进化是多层次上经历自然选择的结果,包括基因序列、蛋白质序列、蛋白质互相作用等层面,这些结果并不随机,而是蕴含一定的规律规则。通过使用包含生物信息的大规模数据进行训练,大模型能够分析生物进化的特点和规律,在一定程度上模拟生物进化的过程,进而具备预测能力,加快生命现象和生命活动规律的研究及发现,助力生物基础科研和医疗技术水平的提升。数据的爆炸式增长对人工智能技术能力提出新需求。随着知识、数据、算法和算力等关键要
23、素的快速发展,大数据时代出现了数据量巨大、类型多样、价值稀疏、时效性高等特征,给人工智能的发展带来了新的挑战和需求。一方面,有标签训练集的缺乏和不平衡限制了小模型在特定任务下的性能和泛化能力;另一方面,传统深度学习方法,如循环神经网络(RNN)卷积神经网络(CNN)等,难以存储和有效利用数据知识。“大数据+大算力+大参数”模型作为一种解决方案乘势而上,悄然酝酿着人工智能在新时代的范式转变。在生命科学与医疗领域,生物数据的复杂性、多样性和海量性,患者数据的敏感性和隐私性,以及科学研究和临床应用对准确性和可靠性的高标准,更使得传统的深度学习方法难以满足行业数字化和智能化发展的需求及挑战。3.Tra
24、nsformer架构奠定大模型主流算法架构基础Transformer引入注意力机制,提高了深度学习模型的性能和效率。2017年,谷歌首次提出了TranSfOrmer架构,其摒弃了此前MLP、RNN和CNN的处理结构,而是利用自注意力(Self-Attention)机制来得到输入和输出之间的全局依赖关系,能够捕捉到长距离的依赖关系和上下文信息,具备并行性、灵活性和可拓展性等优点6。Transformer架构引入了并行化,可以结合图形处理单元(GPU)或张量处理单元(TPU)在大规模的数据集上进行训练,从而提高了计算效率。基于TranSfOrmer的模型具有多用途,不局限于单一模态(文本)上,也演
25、化出了可以用于语音、图像、视频等多模态任务的版本,灵活地进行数据融合和交互。Transformer架构同样具备良好的可拓展性,可以通过增加参数规模和训练数据规模,来提升模型的性能和泛化能力。Transformer架构为医疔健康大模型的发展提供了强大基础和支撑。2018年,谷歌提出了基于Transformer的双向编码器表示模型(BERT),它是第一个基于TranSformer架构的大模型,在11个自然语言理解任务上取得了当时最好的结果?,引发了基于TranSformer的大模型研究和应用热潮。同样在2018年,OpenAI提出了基于Transformer的生成式预训练模型(GPT)8o2020
26、年,谷歌进一步提出了ViSionTmnSfOrmer(ViT),打通了自然语言处理和计算机视觉之间的壁垒。这些模型不断刷新各种自然语言处理任务的性能记录,推动了人工智能领域从深度学习向大模型的范式转移。当前,医疗健康大模型主要都是基于Transformer架构或者混合了TranSformer架构的神经网络模型。基于TranSformer架构的大模型,如BERT系列、GPT系列、ViT系列等,作为大模型的预训练基座模型,可以通过微调、领域适应或领域重训来提高在生物医学任务上的性能。例如,BioGPT、GeneGPT、SCGPT、scBERT和MedBERT是分别基于PUbMed语料库、NCBI数
27、据库、人类细胞图谱数据、ScRNA-seq数据集和中文临床自然语言文本语料库,进行预训练而得到的生物医学大模型。此外,结合了TranSfOrmer架构的大模型也在不断发展。例如,麻省理工学院提出了一种灵活的基于语言模型的深度学习策略以更好地理解和设计蛋白质,将Transformer与图神经网络结合起来构建了生成式预训练模型,可以用于预测蛋白质的二级结构含量、蛋白质溶解度和序列化任务10。(二)多类型基础模型为医疗健康大模型提供坚实源动力生命科学与医疗领域涵盖医学文本、医学图像、生命组学、蛋白质工程等多种数据模态。基于不同预训练数据模态的基座模型快速发展,可完成自然语言处理、计算机视觉、图学习等
28、多种任务,有效地应对生物医学数据的多样性、复杂性和高维性,促进领域创新和变革。例如,大型语言模型(Large-scalelanguagemodels,LLMs)可以用于生成医学文本、回答医学问题、提供医学建议等;视觉大模型(Largscalevisionmodels,LVMs)和视觉-语言大模型(Large-SCalevisionlanguagemodels,VLMs)可以用于识别医学图像、生成图像注释、合成图像等;图学习大模型(Large-scalegraphlearningmodels,LGMs)可以用于预测蛋白质结构、设计药物、分析基因组等;语言条件多智能体大模型(Large-scale
29、language-conditionedmultiagentmodels,LLMMs)可以用于实现远程会诊、智能导诊、医疗机器人等;多模态大模型(Large-scalemultimodalmodels,LMMs)可以用于融合多种医学数据、挖掘数据价值、辅助诊断等。大模型的融合应用有望提升医疗产品创新能力和医疗健康服务水平,也将进一步推动人工智能技术的迭代进步和工程化落地。大型语 言模型BioBERT CIinicaIBERT PubMedGPT BioMedGPT-ChatDNA-AIphaDesign视觉- 语言大 模型-LLaVA-MedSybil-MICLe MedViLL-PubMed
30、CLIP图学习 大模型-Uni-MoI-GOProFormerRTMSre-GraphSiteSocratic SayCan Roboticsmodelsystem transformer-MedPaLM-EKOSMOS-1-XTrimoABFoId -ConVIRT -GLoRIA来源:中国信息通信研究院图3医疗健康大模型的类别和实例1 .大型语言模型大型语言模型是当前医疗健康大模型中数最多、最为活跃的模型类型。大型语言模型在语言数据上进行预训练,并应用于语言下游任务。不同环境下的语言可以有不同的解释,如蛋白质是生命的语言,代码是计算机的语言。大型语言模型能通过自监督学习,从大量未标记数据中
31、提取有用的语义特征和模式,随后通过微调生成符合人类期望的响应。大型语言模型通常基于TranSfbrmer架构打造。TranSfbrmer可以分为编码器和解码器两部分,编码器提取输入序列的语义表示,大多用于“翻译”;解码器根据编码器的输出生成目标序列,大多用于“生成”。大型语言模型根据模型架构和执行的任务类型分为三个类别第一类是纯编码器模型,如BERT及其变体。BERT主要利用双向编码器来捕捉语言中的双向上下文信息,并利用Transformer编码器来提取深层的语义表示,从而将输入文本转换为一系列隐藏状态或特征向量。这些特征向量可以用于各种下游任务,如文本分类、命名实体识别、关系抽取等。纯编码器
32、模型通常使用掩码语言建模(MLM)或下一个句子预测(NSP)等无监督或自监督的目标进行预训练。第二类是纯解码器模型,如GPT系列。GPT是一种基于Transformer的生成式预训练语言模型,主要利用自回归模型来捕捉语言中的上下文信息,并利用TranSfonner解码器来提取深层的语义特征,从而实现高质量的文本生成,可以用于文本生成、摘要、翻译等任务。纯解码器模型通常使用下一个标记预测(NTP)或置换语言建模(PLM)等自回归或自监督的目标进行预训练。第三类是编码器-解码器模型,如文本到文本传输转换器(T5)和双向自回归转换器(BART)o编码器-解码器模型通常使用序列到序列(Seq2Seq)
33、或去噪自编码(DAE)等自监督或半监督的目标进行预训练。医疗健康大型语言模型是基于通用大型语言模型的领域增强模型。为了提高大型语言模型在医疗健康领域的专业性和可靠性,通常需要在GPT、BERT、T5等大型语言模型基础上,利用基因或蛋白质序列信息、医学文本数据或脱敏后的患者全记录周期内的医疗代码序列,进行再训练或微调,以适应特定领域或任务的需求。例如,ChatDoctorBioBERT?MedGPT等针对生物医学领域的预训练模型,分别基于HealthCareMagic网站的医患对话、PubMed摘要和PubMedCentral(PMC)全文、MIMIC-III临床电子健康记录进行预训练。生物医学
34、大型语言模型已经在生物医学文本挖掘与知识发现、医学对话系统、生物与化学序列等场景中展现出强大的应用能力。2 .视觉大模型和视觉-语言大模型医疗健康视觉大模型快速发展,模型架构和性能有待持续探索和优化。自然语言处理领域TranSfonner架构的突破,带动了视觉领域大模型的新发展。视觉大模型在视觉数据上进行预训练并应用于视觉下游任务。视觉大模型基于卷积神经网络(CNN)或VisionTransformer(ViT)架构,采用监督学习和无监督学习范式进行预训练4。ViT是一种基于TranSfOrmer架构的纯视觉模型,借鉴了自然语言处理中的Transformer自注意力机制,其中将词嵌入替换成了p
35、atch嵌入。ViT通过将图片信息切割成PatCh并进行线性映射,将图像转换为序列输入,从而可以使用TranSfonner进行编码和解码。ViT在医疗健康领域应用优势突出,能够通过注意力机制有效地学习长期依赖关系,有效地整合多种医学模态,并通过多头注意力结构提供更可解释的模型,相较传统的CNN更加高效、更接近人类感知。整合语言和视觉数据的医疗实际需求,催生出医疗健康视觉-语言大模型。视觉-语言医疗健康大模型可以结合视觉数据(如图像或视频)处理和生成自然语言文本,利用大量的图像-文本对进行预训练,从而学习到视觉和语言之间的对齐和关联,实现多种跨模态的任务,如图像-文本生成、检索、分类、标注等。在
36、医疗健康场景中,视觉-语言医疗健康大模型可以自动生成医学报告、对医学图像和视频进行标注和解释、通过分析视觉信息辅助临床决策等,为智慧医疗发展提供底层支撑,有望用于个性化预测和早期干预、患者远程监测、疾病诊断等方面。目前,典型的视觉-语言大模型DALL-E、CLIP、ALIGN和Flamingo等在医疗领域的应用探索加快,也已涌现出MedViLL、PubMedCLIPConVIRT、Med-FlamingoBPLIP等针对医疗健康领域的视觉-语言大模型。案例:LLaVA-Med141.LaVA-Med模型由微软推出,是一种基于GPT-4的视觉-语言对话助手,可以回答关于生物医学图像的开放式研究问
37、题1501.LaVA-Med利用从PUbMedCentral提取的大规模、广海蛊的生物医学图题(figure-caption)数据集(包括胸部X光、MRI、组织学、病理学和CT图像等)进行预训练,使用GPT-4从图题中自我指导生成开放性指令遵循数据,并使用一种创新性的分阶段学习方法(anovelcurriculumlearningmethod)对通用领域的视觉-语言大模型进行微调。具体来说,该模型首先使用图解对齐生物医学词汇,然后使用GPT-4生成的指令跟随数据学习掌握开放性对话语义,广泛模拟一个外行人逐渐获取生物医学知识的过程。1.LaVA-Med具有较强的多模态对话能力,可根据CT、X光图
38、片等推测出患者病理状况,并生成有关图像的问答。LLaVA-Med不仅可以提高疾病检测效率以及医学影像领域的智能化分析,还可以以自然语言回答用户有关生物医学图像的问题1.LaVA阶段1阶2LLaVA-Med下游医学概念对齐医学指令调整=O医学视觉对话口医学视觉问答(VQA)7小时8小时 VQA-Radiology1 epoch on 600K samples3 epoch on 60K samples SlAKE Pathology-VQ图4LLaVA-Med的颈训练和微调流程3 .图学习大模型图学习大模型可以有效应对生物序列数据的复杂性。生物测序数据,如蛋白质和药物分子序列,具有复杂的结构和关
39、系,传统的机器学习方法难以有效地处理和生成此类数据。图学习大模型利用图神经网络(GNN)等图学习技术,将生物序列数据表示为图形,并通过图形算法进行分析和推理,在生物计算和药物研发领域有着重要的应用价值。GraphTranSfOrmer是一种基于TranSformer架构的图学习大模型,引入了注意力机制,能有效地学习长期依赖关系,并且能够与频域信息相结合,以提高表达能力。GraphTranSfOrmer有三种架构:1)在GNN上加入transformerblocks;2)交替使用GNNblocks和transformerblocks;3)并行使用GNNblocks和transformerbloc
40、kso通用GraphTranSfOrmer包含三个要素16:位置/结构编码、局部消息传递机制和全局注意力机制。近年来,将结构编码纳入模型中成为一个热点研究方向,涌现出SAT和GraPhiT典型案例。图学习模型可实现生物分子结构、药物-靶点相互作用分析等多种功能。蛋白质序列与自然语言存在相似之处,也存在一定差异,将图学习模型引入蛋白质、药物分子相关任务,可以预测蛋白质功能、评估蛋白质质量、预测蛋白质-配体结合位点和蛋白质-DNA结合位点、预测药物-靶点相互作用等。例如,ADesign针对从3D结构预测蛋白质序列问题,使用简化的图形TranSfOrmer编码器(SGT)和置信感知蛋白质解码器(CP
41、D),提高蛋白质设计效率17。MHTAN-DTi是一种基于TranSfOrmer和层次图注意力网络的药物-靶点相互作用预测模型18,可用于发现作用于特定蛋白质的潜在药物,助力药物重定位、纺物副作用预测、多重药理学和耐药性的研究。4 .语言条件多智能体大模型语言条件多智能体模型有望成为未来医疗机器人的心脏和基石。语言条件多智能体模型是一种利用语言作为多个大模型之间的中介接口的新技术,可以将不同类型和领域的大模型串联起来,形成一个强大的智能体,能够完成单个模型难以完成的任务,代表性案例有SocraticmodelSayCansystemRoboticstransformero语言条件多智能体模型可
42、能使用包括大型语言模型、视觉-语言模型、音频-语言模型、视觉-导航模型等不同的基础大模型,来执行更复杂和多模态的任务,如人机对话或多方协作等。例如,基于语言条件多智能体模型打造的虚拟医疗助理和手术机器人对真实世界理解、交互能力将显著提升,前者可以用来与患者进行远程交流、诊断、预约、检查、治疗等,后者可以用来接收和解释医生的指令、处理和生成手术图像和声音、控制机械臂进行手术操作等。未来,医疗健康语言条件多智能体大模型可以更自然、更智能、更灵活地与人类医生和患者沟通协作,提高医疗质量和效率,降低医疗成本和风险;也可以利用医疗大数据,从海量的医学文献、图像、视频等数据中学习新知识新技能,为医学创新和
43、发现提供支持;还可以根据不同的场景和需求,动态地调整自己的行为和策略,以适应复杂和不断变化的医疗环境。5 .多模态大模型多模态大模型综合分析各种类型的医学数据,实现架构、模态、任务统一。多模态大模型在多种模态数据上进行预训练,并应用于各种单模态或多模态下游任务。随着医疗信息化的快速发展以及医疗设备的更新迭代,海量且类型多样的医学数据应运而生,涵盖临床文本、影像和波形、音频、视频、生物组学数据等多种类型。医疗多模态大模型能够融合和分析各种类型的医学数据,将多模态任务表达为序列到序列生成的形式,结合任务特定的指令在经典的TranSfonlIer架构中实现架构统一、模态统一和任务统一。架构统一是指预
44、训练和微调使用同一Transformer编码-解码器;模态统一是指将自然语言处理、计算机视觉和多模态任务统一到同一框架和训练范式中;任务统一是指将任务统一表达成序列到序列的形式,预训练和微调均使用生成范式进行训练,模型可以同时学习多任务,让一个模型通过一次预训练即可获得多种能力,包括文本生成、图像生成、跨模态理解等。多模态大模型提升医疗诊断准确性,是实现临床落地和智能化价值的关键。获取患者相关数据的每类方式均为一种数据模态,不同模态的医学数据都从特定的角度提供了患者的诊疗信息,信息间既有重叠又有互补。以往单模态的模型只能分析疾病某一层面的信息,具有较大局限性,极大限制了人工智能的医疗应用,而多
45、模态大模型结合多种模态的医学信息,进一步提高了诊断治疗的准确性,是人工智能诊疗产品临床落地的关键。目前国内外涌现多个医疗多模态大模型案例,服务于患者诊断、手术导航、康复训练、影像报告生成等场景。案例:Med-PaLMM19Med-PaLM-M由谷歌ReSearch和DeePMind团队共同研发,是一个多任务多模态的通用生物医学大模型,可以处理包括临床文本、医学图像和基因组学数据在内的多种医疗健康数据。Med-PaLMM基于PaLM-E多模态模型构建,通过指令微调和生物医学领域对齐,在MUltiMedBenCh上进行了训练;还在通用领域语料库(英语WikiPedia和BOOkSCorPUS)上进
46、行了预训练,学习了跨模态数据之间的关联和知识PaLM-E是谷歌于2023年发布的迄今最大的多模态具身视觉语言大模型20,拥有5620亿个参数,在需要多模态理解和推理的零样本任务上表现良好。PaLM-E使用不同的编码器将来自不同模态的信息映射到语言嵌入空间,然后将这些模态、状态向量整合到一个大型语言模型中。主要的模态、状态向量包括2D图像(使用ViT进行编码)以及3D感知信息(使用对象场景表示变换器进行编码)。除了传统的语言生成任务外,PaLM-E还可以用于连续的机器人控制规划、视觉问答、图像描述、知识获取等多模态理解和推理任务上都取得了最先进的结果。MUltiMedBenCh是谷歌自建的多模态
47、医学测试基准。该基准由12个开源数据集和14个单独的任务组成,用于测量通用生物医学Al执行各种临床任务的能力。其中12个数据集共包含了六种生物医学数据模式(文本、放射学(CT、MRI和X光)、病理学、皮肤病学、乳房X光检查和基因组学),14个任务则涵盖五种类型(问题回答、报告生成和摘要、视觉问题回答、医学图像分类和基因组变异识别)。Med-PaLM-M在14个不同的医疗任务上接近或超过了现有的最先进模型,包括医疗问答、影像分类、基因预测等。Med-PaLM-M为医疗领域提供了强大、灵活的生成模型,可处理多种数据类型和任务,促进医疗知识的发现和应用。Med-PaLM-M能灵活地编码和解释多模态的生物医学数据,并且具备仅使用基于语言的指令和提示就能准确识别和描述未见过的图像中的医疗状况的能力。,XMtA,.j医学与杏基因is学,NIJj一浮i医学视此问誓.这竺士医学BB倬分笑Med-PaLMM放射夜普息结Y放射出曾集成图5Med-PaWM所用基准数据集的模态和任务(三)四种范式助力大模型在医疗健康垂直领域的应用实践目前,有多种策略可使通用基础模型适应生命科学与医疗健康领域的特定任务。总体而言,在生命科学与医疗领域应用大模型主要有四种技术范式2”,由难到易分别从头
链接地址:https://www.desk33.com/p-1258046.html