2024上消化道内镜人工智能系统临床应用专家共识(完整版).docx
2024上消化道内镜人工智能系统临床应用专家共识(完整版)食管癌和胃癌是严重危害我国患者生命健康的重大疾病,早诊早治是改善其预后及生活质量的主要策略。止匕外,消化道癌前病变如萎缩性胃炎、胃黏膜肠上皮化生,以及消化道危急重症如食管胃静脉曲张亦于临床十分常见,对此类疾病早期、准确的诊断有益于保障患者生命健康安全,具有重要意义。食管胃十二指肠内镜(esophagogastroduodenoscope,EGD)是诊断上消化道肿瘤、上消化道癌前病变及危急重疾病的临床一线工具,利用白光内镜、图像增强内镜、化学染色等方式,可早期发现上消化道肿瘤及癌前病变,阻止疾病的进展,亦可准确诊断食管胃静脉曲张等危急重疾病,并针对以上疾病进行镜下分级,支撑临床医师进行后续治疗方案的决策。然而,在我国消化疾病诊疗领域,仍长期存在早期消化道肿瘤及癌前病变漏诊率居高不下、非肿瘤性病变诊断一致性差等问题。程树红等分析93例早期胃癌数据,发现早期胃癌漏诊率高达37.63%;赵书阳等分析297例反复长期出现上消化道症状的患者资料,经病理检查发现199例早期胃癌及癌前病变而常规EGD检查漏诊了其中的98例,漏诊率近50%,即使在应用放大染色内镜后漏诊率仍有6%o另有一项研究收集370例病理证实胃癌前病变患者,发现上述患者EGD下漏诊或可疑漏诊率达31.67%o据调查,我国2012年有超过6000家医疗机构开展消化内镜诊疗,全年开展消化内镜诊疗接近3000万例,而消化内镜医师不足3万人,占全部注册执业医师的1%,每100万人口拥有消化内镜医师不足20人。随着技术的快速推广和人民群众健康需求的提升,尽管我国近年来消化内镜诊疗机构数量和诊疗量飞速上升,但医患比例的绝对不均衡现象依然严峻。因此,亟须探索内镜诊疗领域的新技术、新应用,以助解决我国消化内镜诊疗的上述关键性问题。人工智能(artificialintelligence,AI)技术是指模拟人类智慧的技术和方法,其核心目标是使机器能够执行通常需要人类智慧的任务,近年来在医疗领域广泛应用。深度学习技术是AI的分支,在图像识别任务中具有较强能力。近年来,中外学者就AI在EGD的探索和应用中取得众多先进性成果,覆盖了EGD检查的方方面面,并就AI应用于临床实践的有效性、安全性开展临床试验,收效显著,引发国内外专家学者对AI进入真实医疗环境的讨论和思考,并提出众多积极的建议和展望。Al设备引入临床已是大势所趋。本共识旨在综合现有研究证据,为临床医师在应用EGDAI辅助模型时提供决策参考。本共识并非强制性标准,无法涵盖或解决所有技术相关的临床问题。建议临床医师在面对具体患者时,应充分了解目前能够获取的最佳临床证据,结合患者病情和治疗意愿,根据自己的专业知识、临床经验和可获得的医疗资源,制定临床决策。本共识基于PICO(participants,interventions,comparisons,outcomes)原则提出陈述意见,参考GRADE(gradingofrecommendations,assessment,development,andevaluation)系统对证据质量(表1)和推荐强度(表2)进行分级。采用改良Delphi方法由专家投票表决达成共识:(1)完全同意;(2)同意,有较小保留意见;(3)同意,有较大保留意见;(4)不同意。投票表决意见中(1)+(2)比例80%属于达成共识,共识水平以表决意见中的(1)+(2)比例表示。最终,本共识最终达成80%以上共识水平的推荐意见共13项(表3)。表1证据质量的推荐分级评估、制定和评价证据质等定义量级高等质非常确信估计的效应值接近真实效应值,进一步研究也A量不可能改变其可信度中等质对估计的效应值确信度中等,其有可能接近真实效应B量值,进一步研究有可能改变其可信度低等质对估计的效应值确信度有限,其与真实效应值可能大不C量相同,进一步研究极有可能改变其可信度很低等对估计的效应值几乎没有信心,其与真实效应值很可能D质量完全不同,对其的任可估计者B很不确定表2推荐强度分级推荐定义强度明确显示干预措施利大于弊或者弊大于利,在大多数情况下适强用于大多数患者利弊不确定,或无论质量高低证据均显示利弊适当,适用于很弱多患者,但根据患者价值观与偏好性会有差异表3上消化道内镜人工智能系统临床应用专家共识陈述汇总k证据推荐共织推存除质果强度水平陈述1:对广需费接受EGD检代的患者.推称将Al辅助EGD检代时间作为质状控制IH95.45%陈述2:对于需要接受EGD检者的患*.椎样招AI辅助IiK位测作为质状控制工具A强100.00%陈述3:推荐在ECD检件中使用AI实时辅助发现食管舁常病灶C强95.45%陈述4:推荐而巴甯特食管患并使川Al辅助测出相愣分C强86.36%陈述5:对怀StH期食管&状缰眼密或以期食管赧施的志卷.均推荐使用AIiS行辅助诊断C强95.45%陈述6:中于未获母代理浸润深度的早期食臂Ift患#.建汉在川辅助FfS测是否发生懿兼卜200Am以上的浸树C强90.91%陈述7:财干肝硬化患力.推荐临床使用Al辅助内摊下食竹H静脓曲张识别C强95.45%陈述8:财广编珍优W臼静脉曲*的患在.HT在使川Alle助内债Frtlft程度分级C强95.45%陈述9:建议在雷规EGD检件中使用AI实时辅助发现胃舁常嫡灶C强90.91%陈述10:对于禽螯接受EGD检传的患者.推吞使用AlIll助目炎诊断C强95.45%陈述11:时于怀疑M期胃艺的患者.推荐帙床应用Al助诊断H强90.91%陈述12:对于怀疑不期同蟾并需饕接受内摊钻腴卜剁离术或行足联学活检的患界.建议在Al情助卜进行范阳标定C强90.91%陈述13:可解脩性Al帙整性能和侯师接受度优于传统AleSP,推荐优先使用典备可解耗性的AleJ型C强95.45%注:EeD指食管巴I.指析内愉:Al指人r智能一、EGDAI辅助系统功能(一)AI辅助EGD检查时间统计01陈述1:对于需要接受EGD检查的患者,推荐将AI辅助EGD检查时间作为质量控制工具。(证据质量:A,推荐强度:强,共识水平:95.45%)EGD是检出早期上消化道肿瘤的重要手段。EGD的检查时间指内镜从插管到拔管,对食管、胃和十二指肠的观察时间。为了保证EGD的检查质量,欧洲胃肠内镜学会等协会提出标准的EGD检查时间作为质量控制规范,指南建议EGD检查时间应不少于7mino由于临床诊疗环节复杂、诊疗任务繁重,并且缺乏经济有效的质量控制方式,目前很难对EGD检查时间进行严格监测。近年来,基于深度学习的AI技术不断发展,并在医学图像识别领域取得重大进展,其图像处理与识别的高效性有助于AI技术在胃肠内镜质量控制中的应用,可实现低成本、高效率的EGD检查时间监测。Yu等和Wu等均通过构建深度学习模型实现了EGD检查过程中准确实时地识别解剖位置并记录EGD检查时间。Wu等构建的深度学习模型在107个真实EGD视频中正确预测93.46%视频的检查开始时间和97.20%视频的检查结束时间。(=)AI辅助盲区监测陈述2:对于需要接受EGD检杳的患者,推荐将AI辅助盲区监测作为质量控制工具。(证据质量:A,推荐强度:强,共识水平:100.00%)高质量EGD检查是上消化道肿瘤早诊早治的关键。英国胃肠病学会和欧洲胃肠内镜学会等均建议在EGD检查中对上消化道进行系统性观察,通过减少盲区来降低肿瘤漏诊率。受限于内镜医师操作水平和对解剖部位的认知差异,容易出现检查部位覆盖不全的问题,且缺乏有效的EGD质量控制和评估体系。近年来,AI迅速发展,可通过深度学习对数据、图像等快速自动识别和分析,目前Al在EGD检查中部位识别、减少检查盲区有了较大进展。2018年Takiyama等构建基于深度卷积神经网络的部位识别系统,共纳入27335张EGD白光图片,将上消化道分为喉、食管、胃和十二指肠,其中胃又分为上部、中部和下部,然后用17081张图片验证其部位识别的能力,结果显示该系统自动识别上消化道各个解剖部位的整体准确率为97%o然而该研究仅针对静态图片的部位进行评估,并不能反应Al在实时视频状态下的检测性能。Wu等研发的WISENSE系统利用深度学习技术,基于欧洲胃肠内镜学会EGD操作指南和日本EGD系统筛查方案,将上消化道分为26个部位,并实现实时状态下识别EGD解剖部位。基于该模型,该团队开展了单中心随机对照研究以评价WISENSE对EGD检查质量的影响。该研究共招募324例EGD检查患者(WISENSE辅助组153例,对照组150例),WISENSE辅助组的盲区率显著低于对照组(5.86%比22.46%,<0.001)o随后,为验证该模型在不同EGD检查类型中的效果,该团队完成了一项3组随机平行对照研究,结果显示,AI辅助下常规、无痛和超细EGD检查的盲区率均低于对照组(无痛EGD组:3.42%比22.46,P<0.001;超细EGD组:21.77%比29.92%,<0.001;常规EGD组:31.23%比42.46%,Ao.001)o此外,多中心随机对照研究的结果再次验证了AI辅助EGD检查可减少盲区。综上,AI在临床实践中可作为辅助监督工具,通过实时识别部位反馈盲区,提醒内镜医师规范操作减少检查部位的遗漏监督和提高EGD检查质量。(三)AI辅助食管异常病灶识别陈述3:推荐在EGD检查中使用AI实时辅助发现食管异常病灶。(证据质量:Cz推荐强度:强,共识水平:95.45%)食管异常病灶主要包含食管癌、食管癌前病变和其他食管良性病变(食管炎、食管胃黏膜异位和静脉瘤等)。我国每年因食管癌死亡人数超过10万。我国食管癌以鳞状细胞癌为主要病理类型,占比超过90%,以巴雷特食管为前驱病变的食管腺癌在西方较为多发,但也是我国食管癌的主要病理类型之一。早期发现并切除食管癌及癌前病变,可有效改善患者预后,但食管癌前病变及早期癌病变黏膜改变轻微,诊断困难。因此利用AI辅助检出早期食管癌及其癌前病变具有重要意义。GUo等进行多中心的样本收集,使用AI检测癌前病变及早期食管鳞状细胞癌、食管胃静脉曲张、食管炎、食管胃黏膜异位等多种食管异常病灶,其模型在图像测试中的灵敏度为98.04%,特异度为95.03%Liu等进行多中心的样本收集,构建AI模型在白光下检测早期食管鳞状细胞癌。其模型在内部和外部图像测试中检测早期食管鳞状细胞癌的准确率分别为85.7%和84.5%为了进一步拓展图像模态,Yuan等使用AI在白光内镜、碘染、放大内镜窄带光成像(ME-NBI)x窄带光成像(NBI)多种内镜成像模式下检测早期食管鳞状细胞癌。模型在不同内镜成像模式下均取得了较好的诊断性能,在白光下识别食管鳞状细胞癌的准确率、灵敏度和特异度分别为82%、90%和74%;在NBI或碘染下识别食管鳞状细胞癌的准确率、灵敏度和特异度分别为86%、93%和80%,与经验丰富的内镜医师诊断性能相似。Pan等利用白光、NBI图像开发了两个全卷积神经网络分别分割胃食管交界处和鳞柱状交界处,交并比(IoU)分别为0.56和0.82,该方法优于使用单个深度学习网络的传统方法,可以更好地对巴雷特食管识别和分割。Horie等使用AI同时检测食管鳞状细胞癌和食管腺癌,该模型灵敏度为98%,阳性预测值为40%o(四)Al辅助巴雷特食管测量和评分陈述4:推荐对巴雷特食管患者使用AI辅助测量和评分。(证据质量:C,推荐强度:强,共识水平:86.36%)巴雷特食管是一种癌前病变,巴雷特食管3cm的患者每年进展为腺癌的比率(025%)显著高于巴雷特食管3cm的患者(0.07%)。因此,指南建议根据巴雷特食管长度确定监测间隔。布拉格C&M分类基于内镜下可见的食管柱状黏膜的整个环状上移的长度(C)和上移最大长度(M)对巴雷特食管进行分级,已被美国、欧盟和英国等多指南推荐作为确定内镜监测间隔的风险分层工具。Ali等利用白光、NBI图像训练AI模型进行巴雷特食管范围测量,视频测试中,C和M以及岛状黏膜测量平均精度97.2%,边界平均偏差为±0.9mm,而巴雷特食管上皮测量精度98.4%,与真实值平均偏差仅为±0.4Cm2,系统提供的C和M测量值与专家评分一致,C和M评分的边界总体相对误差(平均差)分别为8%(3.6mm)和7%(2.8mm)。(五)AI辅助早期食管癌诊断陈述5:对怀疑早期食管鳞状细胞癌或早期食管腺癌的患者,均推荐使用AI进行辅助诊断。(证据质量:C,推荐强度:强,共识水平:95.45%)食管癌患者的生存时间与其临床分期密切相关,实现食管癌早诊早治,可以大幅度改善患者预后。然而由于早期食管癌病变范围较小,内镜下形态学表现与一些良性疾病及癌前病变鉴别困难,不同年资、经验的内镜医师诊断水平差异较大,对病变的性质、范围、浸润深度、分化情况认识不足,使早期食管癌容易漏诊。OhmOri等进行了一项单中心、回顾性的临床试验,使用Al在不同内镜成像下对食管鳞状细胞癌与食管炎、血管异常、轻度色素沉着、糖原性棘皮病等良性病变进行鉴别诊断。AI在NBI及蓝光成像(BLI)图像测试中的灵敏度、特异度和准确率分别为100%、63%和77%,在白光中的灵敏度、特异度和准确率分别为90%、76%和81%在MENBI及BLl中的灵敏度、特异度和准确率分别为98%、56%和77%oTang等、Cai等以及Li等均对早期食管鳞状细胞癌与非癌鉴别诊断功能进行了辅助阅片验证,在AI的辅助下,内镜医师的诊断准确率、灵敏度、特异度均显著升高。Liu等进行了一项多中心临床试验,在白光下使用AI检测和描绘早期食管鳞状细胞癌的边界,AI模型、高级内镜医师(拥有4年内镜操作经验)和专家内镜医师(拥有8年内镜操作经验)划定边界的准确率分别为98.1%、78.6%和95.3%,Al模型与内镜专家的性能相似,优于高级内镜医师。在巴雷特食管患者内镜筛查和监测过程中,西雅图活检方案建议每12cm进行1次四象限活检。然而,采样误差可能会限制其灵敏度,特别是对于长段巴雷特食管黏膜内的小区域癌症或不典型增生。止匕外,食管腺癌或不典型增生常呈扁平状,难以与周围的非不典型增生巴雷特食管黏膜区分。内镜医师常常未对长节段巴雷特食管进行广泛活检,亦增加癌症漏诊的风险。vanderSommen等基于44例巴雷特食管患者的100张图像开发了一种用于检测巴雷特食管早期肿瘤性病变的深度学习模型,图片测试中该系统的灵敏度和特异度均为0.83,在以患者为单位的测试集中,灵敏度和特异度分别为086和0.87。deGroof等前瞻性收集40例肿瘤性巴雷特食管病变和20例无不典型增生巴雷特食管白光图像,构建模型识别肿瘤性病变,准确率、灵敏度和特异度分别为92%、95%和85%,识别正确的案例中,89.5%案例模型标记区域位于专家标注范围内。deGroof等进行了一项多中心、回顾性的临床研究,基于5个白光数据集训练并验证了一个计算机辅助检测(CAD)系统,CAD系统将图像分类为包含肿瘤或无不典型增生巴雷特食管,分别在两个数据集(数据集4,数据集5)中进行图像外部验证,在数据集4中准确率为89%,灵敏度为90%,特异度为88%o在数据集5中,CAD系统与普通内镜医师的准确率分别为88%和73%,灵敏度为93%和72%,特异度为83%和74%CAD系统准确率优于所有53名非专家内镜医师。数据集4和5中,CAD系统检测的肿瘤区域与专家识别的区域均重叠。CAD系统在97%数据集4)和92%(数据集5)的病例中检测到了肿瘤活检的最佳部位。deGroof等在另一项单中心前瞻性研究中,验证基于白光图像构建无不典型增生巴雷特食管和巴雷特食管肿瘤性病变鉴别模型,以每2cm巴雷特食管上皮的白光图像作为一个水平,对CAD系统进行验证,其准确率、灵敏度和特异度分别为90%、91%和89%o(六)AI辅助食管癌浸润深度预测陈述6:对于未获得病理浸润深度的早期食管癌患者,建议在AI辅助下预测是否发生黏膜下200m以上的浸润。(证据质量:C,推荐强度:强,共识水平:90.91%)食管癌浸润深度与其淋巴转移风险和预后紧密相关。指南规定对于浸润至上皮层、黏膜固有层、黏膜肌层以及黏膜下层200m以内(SMl)的食管癌患者,由于发生淋巴结转移风险较小,在不伴脉管瘤栓或神经侵犯、不伴食管周围区域淋巴结肿大的情况下推荐行内镜切除术,而浸润至黏膜下200m以上(SM23)的食管癌患者应进行外科手术治疗。因此,准确预测食管癌浸润深度是改善患者预后并避免过度诊疗的关键。Tokai等基于白光内镜收集日本肿瘤研究所1751例食管鳞状细胞癌患者的内镜图像构建AI模型,用于判断浸润深度。该模型对食管鳞状细胞癌浸润深度的预测准确率为80.9%,准确率评分超过92%的内镜医师。Uema等和Nakagawa等构建的AI系统区分SM1和SM23的食管鳞状细胞癌的灵敏度为90.1%,特异度为95.8%,准确率为91.0%,与经验丰富内镜医师的性能相当。对于食管腺癌的患者,Ebigbo等利用多中心、回顾性收集的巴雷特食管相关食管癌的白光图像构建浸润深度分型模型,AI区分黏膜癌和黏膜下癌的准确率、灵敏度和特异度分别为71%、77%和64%,表现出与内镜专家相似的诊断性能。()AI辅助食管胃静脉曲张识别陈述7:对于肝硬化患者,推荐临床使用AI辅助内镜下食管胃静脉曲张识别。(证据质量:C,推荐强度:强,共识水平:95.45%)食管胃静脉曲张破裂出血是肝硬化的严重并发症,85%的肝硬化失代偿患者伴有食管胃静脉曲张。内镜检查仍是诊断食管胃静脉曲张、预测2年内出血风险的金标准。所有诊断为肝硬化的患者均推荐进行内镜检查,并对静脉曲张进行危险分级。Chen等构建了基于深度学习的食管胃静脉曲张识别模型,该模型由来自2家医院2OOO余例患者的上万张白光图片训练而成。在人机比赛中,模型识别食管、胃底静脉曲张的准确率分别为97%和92%,显著优于内镜医师。在多中心视频测试集中,模型的准确率也达到97%和91%,证明模型鲁棒性较好。Ding等开发了一个基于深度学习诊断食管胃静脉曲张的系统,该系统在506张图像的数据集中的灵敏度为80.54%oWang等使用来自3家医院的6OOO余张图片训练静脉曲张分割模型,模型分割静脉曲张的交并比达到0.8以上。()AI辅助食管胃静脉曲张严重程度分级陈述8:对于确诊食管胃静脉曲张的患者,推荐使用AI辅助内镜下严重程度分级。(证据质量:C,推荐强度:强,共识水平:95.45%)食管胃静脉曲张内镜下风险分层决定接下来12年内患者需要接受的治疗,美国肝脏病协会和欧洲胃肠内镜学会指南建议Form1级静脉曲张伴有红色征或Child-pughC级,或Form23级静脉曲张的肝硬化患者应该接受预防治疗,其他患者需要继续随访。多项研究都证实内镜下危险因素对预测患者2年内静脉曲张出血十分重要,但描述内镜下危险因素时主观性较强,且内镜医师间一致性不佳。Chen等构建了基于深度学习的静脉曲张风险因素识别模型,该模型能够识别静脉曲张的尺寸、Form分级、红色征等。根据风险因素得出相应的治疗建议:(1)需要预防性治疗:食管胃底静脉曲张伴大尺寸、红色征、红斑或Child-PughC级;(2)随访:无红色征或红斑的小静脉曲张;(3)无需治疗:正常食管和胃。在人机比赛中,模型识别食管大尺寸静脉的灵敏度与内镜医师相当(93.33%比88.17%),识别红色征的灵敏度与特异度均高于内镜医师(85.11%比81.34%,P<0.01;83.33%比63.06%,/<0.01);模型识别胃底大尺寸静脉的灵敏度与内镜医师接近(90.00%比93.33%),识别红斑的灵敏度与内镜医师相似(84.62%比85.71%),但特异度显著高于内镜医师(84.09%tt57.89%,P<0.001)。Wang等训练静脉曲张Form分级及红色征分割分级模型,在前瞻性观察性研究中,模型对食管胃静脉曲张Form分级(94.57%比75.97%,P<0.001)与红色征分割分级准确率(94.62%比66.92%,AO.001)都显著优于内镜医师。在识别胃静脉曲张红色征方面,模型准确率也显著优于内镜医师(95.76%比85.38%,Ao.001)。模型识别食管胃静脉曲张出血高风险患者的准确率显著优于内镜医师(94.92%比69.49%,Ao.001)oWang等还使用自动训练平台构建集成内镜图片与临床特征的模型,预测患者12个月后的食管胃静脉曲张出血情况,在测试集中模型准确率为0.932o(九)AI辅助胃异常病灶识别陈述9:建议在常规EGD检直中使用AI实时辅助发现胃异常病灶。(证据质量:A,推荐强度:强,共识水平:90.91%)胃异常病灶主要包括胃良性病变(糜烂、息肉、黄斑瘤、溃疡和异位胰腺等)、癌前状态(萎缩和肠化)、胃癌及其癌前病变(低级别上皮内瘤变和高级别上皮内瘤变)oEGD是检查胃异常病灶的首选方法。在胃异常病灶中,胃癌是一类发病率和死亡率均极高的疾病。全世界每年约有99万人被诊断为胃癌,其中约有73.8万人死于胃癌。胃癌的五年生存率约为20%,而早期胃癌的五年生存率可达90%o然而,我国各地区医疗资源和内镜医师的水平存在较大差异,消化内镜检查质量参差不齐,存在病灶遗漏或可疑高风险病变误判问题,潜在高危病灶在内镜筛查后未进行进一步检查,导致早期胃癌漏诊率高达20%40%.利用AI系统可实时辅助内镜医师在EGD下识别异常病灶,有望提高胃良性病变、癌前病变诊断率,改善患者预后。早期发现和切除息肉对于预防胃癌至关重要。Durak等开发了一个基于Y0L0v4的白光下识别胃息肉的深度学习模型,其识别准确率为87.95%oBillah和Waheed提出一种基于小波颜色纹理分析和卷积神经网络特征融合方案的改进方法,通过对公开数据库测试显示,所构建的系统优于现有息肉模型检测方法,准确率为98.34%,灵敏度为98.67%,特异度为98.23%0胃癌前状态在胃癌发展中起着重要作用。研究显示,胃萎缩患者五年累积胃癌发病率为0.7%10%,肠化患者为5.3%9.8%.Xu等构建基于染色放大内镜诊断胃癌前病变的AI系统,该系统在前瞻性视频测试集中准确率为0.898。在检测胃萎缩(0.869比0.846)和肠上皮化生(0.888比0.820)方面的诊断准确率与专家相当,优于普通内镜医师。Wu等开发深度学习系统用于检测白光下胃内异常病灶,并对其中的肿瘤性病变进行红框提示。在大样本前瞻性研究中该系统检测胃内局灶性病变的灵敏度为92.8%,诊断胃内高风险病变(即可疑肿瘤性病变)的灵敏度为91.8%,特异度为92.4%oWu等基于该系统进一步开展随机对照串联临床试验,该试验将患者随机分至Al优先组(先AI辅助检查,后常规检查)和常规优先组(先常规检查,后AI辅助检查),并在第二次检查结束时对所有检测到的高风险病变进行靶向活检。该试验中907例患者被随机分配到AI优先组,905例患者被随机分配到常规优先组,AI优先组的肿瘤性病变漏诊率明显低于常规组(6.1%比27.3%)。(十)AI辅助胃炎诊断陈述10:对于需要接受EGD检查的患者,推荐使用AI辅助胃炎诊断。(证据质量:Cf推荐强度:强,共识水平:95.45%)胃腺癌的发展被认为是一个级联反应,即从幽门螺杆菌感染(HeHcobacterpylori,HP)感染相关的慢性胃炎到萎缩性胃炎(atrophicgastritis,AG)到肠上皮化生,再发展为不典型增生和肿瘤。许多胃癌都伴有胃黏膜长期炎症引起的一系列病理改变。及时发现和治疗胃炎、制定适当的监测策略,可以防止病情进一步恶化,降低胃癌风险。户的长期感染导致胃腺体进行性破坏,常形成多灶性胃炎,黏膜变化在内镜下表现多样。然而,内镜医师判断黏膜特征的主观性强,研究表明白光下诊断“户胃炎的准确率约为70%,对AG的内镜诊断准确率也仅为46.8%,严重依赖内镜医师的经验水平。Zhang等使用特征提取方法,开发了一个基于9个内镜黏膜特征的户感染相关的胃炎诊断系统,该系统识别的感染的灵敏度、特异度和准确率分别为89.6%、61.8%和74.8%,诊断准确率与内镜医师相当。Seo等使用多种族内部数据集和外部数据集验证所构建的HP感染内镜诊断系统,该系统在韩国裔内部集、非韩国裔内部集和外部集的准确率分别为94%、88%和87%Li等构建的AI系统在10例内镜视频中诊断”"感染的总体准确率与专家相似(84%比83.6%),在191例前瞻性连续患者中的准确率、灵敏度和特异度分别为85.3%、83.3%和85.8%oMu等建立一套白光下胃炎分类系统收集常见胃炎、其他胃炎和非胃炎的8141张白光图像,分类AG与非AG、萎缩与肠化、糜烂与出血的准确率在视频测试集上分别为95.00%、92.86%.94.74%o1.in等收集来自中国14家医院2741例患者的7037张白光图片,开发AG自动识别模型,该模型诊断AG受试者工作特征曲线下面积为0.98,准确率为96.4%,而3名内镜医师的诊断准确率仅为58.9%70.6%.Yang等建立包含21420张白光和联动成像内镜图片的数据集训练一个提取关键视觉特征的模型,该模型对AG的诊断准确率高达95.06%,显著高于5名医师的诊断水平(62%70%)。Zhao和Chi开发了一个白光下AG实时视频监测诊断模型,并进行一项前瞻性的队列研究验证AI模型能否提高白光下AG的诊断准确率;该研究共纳入268例患者,其中AI组对AG的诊断准确率为35.8%,而内镜医师组仅为24.6%,AI性能明显优于内镜医师。随后他们又进行了一项前瞻性病例对照研究,证实该模型的诊断评价指标和一致性评价均优于内镜医师。(+-)AI辅助早期胃癌诊断陈述11:对于怀疑早期胃癌的患者,推荐临床应用AI辅助诊断。(证据质量:B,推荐强度:强,共识水平:90.91%)胃癌的早诊早治十分重要,但早期胃癌缺乏内镜下特征表现而易漏诊。放大染色内镜能够清晰地显示黏膜微血管和微结构的变化,故常作为重要的手段与白光内镜联用,以提升早期胃癌诊断的准确率,避免漏诊。然而,放大染色内镜对于硬件设备和内镜医师操作技术有较高的要求。研究显示,内镜医师放大染色内镜下诊断早期胃癌的准确率为40%80%,平均准确率60%,有很大的提升空间。因此,国内外许多学者基于放大染色内镜下对早期胃癌的诊断,进行了AI模型构建,并考察验证其性能。He等开发了一个基于深度学习的放大染色早期胃癌诊断系统,该系统在内部视频测试中诊断早期胃癌的准确率为90.32%,显著优于资深内镜医师(70.16%±8.78%);在前瞻性视频测试中,该模型灵敏度为92.59%,准确率为83.67%oHu等基于多中心数据开发基于VGG-19框架的计算机辅助诊断模型,用于在放大染色模式下辅助诊断早期胃癌。系统在内、外部测试集上均取得良好表现,诊断能力与高级内镜医师相逅准确率:77.0%比5.5%lP=0355;灵敏度:79.2%比76.7%,P=0.183;特异度:74.5%比74.2%,P=O.931)。Li等开发卷积神经网络模型并进行图片测试,模型诊断早期胃癌的灵敏度、特异度和准确率分别为91.18%.90.64%和90.91%,其灵敏度显著优于专家内镜医师,3项指标均显著优于非专家内镜医师。(十二)AI辅助早期胃癌范围与边界识别陈述12:对于怀疑早期胃癌并需要接受内镜黏膜下剥离术或行组织学活检的患者,建议在AI辅助下进行范围标定。(证据质量:C,推荐强度:强,共识水平:90.91%)识别和标定早期胃癌的范围对于准确活检与手术范围标定均有重要意义,但部分早期胃癌的黏膜表观特征不明显,准确判定边界较为困难。Kanesaka等于2018年开发计算机辅助诊断系统在放大染色图片中诊断早期胃癌,并判定早期胃癌范围。其对早期胃癌诊断的准确率为96.3%,判定早期胃癌区域范围准确率为73.8%±10.9%oLing等开发实时诊断系统用于在放大染色模式下准确识别早期胃癌分化状态与边界。该系统对于早期胃癌分化状态预测的图片测试准确率为83.3%,显著优于专家内镜医师(69.7%);该系统对于分化型和未分化型早期胃癌范围预测的图片测试准确率分别为82.7%和88.1%oAn等基于白光图像和靛胭脂化学染色内镜图像开发早期胃癌边界分割系统,并在图像和内镜黏膜下剥离术视频上进行测试,AI在化学染色和白光图像中均准确分割了早期胃癌边界(准确率分别为85.7%、88.9%);在内镜黏膜下剥离术视频测试中,AI预测的切除边缘覆盖了所有高级别上皮内瘤变和进展期癌变区域,其预测的切缘与病理癌组织边界的最小距离为(3.44±1.45)mm,优于基于MENBI判定的切缘。(+三)模型可解释性陈述13:可解释性AI模型性能和医师接受度优于传统AI模型,推荐优先使用具备可解释性的AI模型。(证据质量:C,推荐强度:强,共识水平:95.45%)目前大多数AI辅助EGD的研究仍基于传统深度学习模型,模型决策过程受限于深度学习的黑匣子特征使其功能的临床可信度以及应用的伦理合理性受到限制。临床医师在诊断早期胃癌时,主要依靠专家经验总结出抽象理论,具有主观性、不确定性,导致医师间一致性较差。许多研究证实Al在辅助诊断早期胃癌方面具有巨大潜力,但多数AI模型为黑匣子模型,仅输出诊断结果,而无法展示详细的诊断过程,并且无法将抽象的诊断理论具体化展示给内镜医师,这极大地限制AI模型在早期胃癌诊断中的应用。在可解释性早期胃癌诊断方面,Li等基于定量分析、深度学习和机器学习,并结合特征提取使用692例患者的1897张染色放大内镜图片开发了早期胃癌可解释性AI模型。模型在图片测试集中的诊断准确率(88.76%)高于不可解释性深度学习模型(82.77%)和新手医师(71.63%),达到专家医师水平(88.95%)o模型在100个视频测试集中的诊断准确率(87.00%)高于不可解释性深度学习模型(68.00%),与内镜医师(89.00%)相当。在模型辅助下,新手内镜医师诊断准确率(87.45%)显著提高。与不可解释性深度学习模型相比,内镜医师对可解释性模型的满意度更高。通过提取内镜下早期胃癌的相关特征,解构AI模型诊断逻辑,可实现抽象理论具体化和AI模型诊断可解释性,提高医师诊断准确率和一致性。此外,通过分析模型的诊断步骤,内镜医师可从模型中学习诊断理论或发现模型错误原因并进行模型优化,提高内镜医师对模型的信任度。Dong等使用来自8家医院3279例患者的4482张白光图像296个局灶性病变视频构建白光下早期胃癌可解释性诊断模型。结果显示可解释性模型在内部视频(81.10%比70.61%)和外部视频测试集(88.24%比78.49%)中的诊断准确率显著高于内镜医师。在可解释性模型辅助下,内镜医师诊断准确率显著提高(70.61%比79.63%)。此外,与不可解释性深度学习模型相比,内镜医师对具有可解释性模型的满意度更局Jo日本食管学会开发用于预测食管鳞状细胞癌浸润深度的放大内镜分类,其基于观察微血管形态的不规则程度对浸润深度进行预测。Zhao等使用AI进行食管上皮乳头内毛细血管拌(intraepithelialpapillarycapillaryloop,IPCL)分类,AI对病变的平均诊断准确率为89.2%;AI对炎症性病变的诊断准确率高于初级和中级内镜医师Al诊断IPCL的准确率(B1型87.6%,B2型93.9%)明显高于初级(B1型69.2%,B2型79.3%)和中级内镜医师(B1型79.1%,B2型90.0%),但该研究未纳入B3型血管。Uema等使用AI对浅表食管鳞状细胞癌的IPCL进行分类,其图像测试中IPCL分类准确率为84.2%,高于内镜医师平均水平(77.8%,<0.001)。用于诊断B1型、B2型和B3型血管的受试者工作特征曲线下面积分别为0.969、0.948和0.973oZhang等基于IPCL分型开发可解释的食管鳞状细胞癌浸润深度预测系统,其在图像验证中诊断SM23病变的灵敏度、特异度和准确率分别为85.7%、86.3%和86.2%,在视频中的灵敏度、特异度和准确率分别为87.5%、84%和84.9%在该系统辅助下,内镜医师的准确率显著提高(从79.7%提高到84.9%,P=O.03)二、EGDAI系统临床应用要求(一)功能适宜性功能适宜性的具体含义指产品功能应当正确、完整且适合临床场景。现有的EGDAI功能适宜性应符合表4所列目标,并能够在表4中建议的多种图像模态下进行识别,以确保其功能适宜性。表4食管胃十.指肠内Ift人工钾能功能适宜性目标功能功能适宜性目标内检图像恨态建议实时性要求(是否必於动态识别)检育时长统计食膏.巴.卜?SiK的内读观察时代计时白光内检,图像增强内校是KKMLiH别食管.W.卜二指杨的解剖部位.提示未扣住的部位2.根据已识别的解剖部位计停盲区率(叫选)白光内Ift贴食管异京病灶里别检测H期食管癌及燧性病变,食管炎、巴宙特食管等食管科变白光内悔、图像增强内彼、染色放大.感染是巴甯特食管测fit和博分L测量环状上移的K度.I.移最大K度和巴制特食WiA膜范围2.根据测Ilt结果确定内镜监泅间隔(UJ选)门光内1、图像增强内Ift否食管令诊断鉴别早期食膏糕(包括食状1胞密可食管腺癌号非癌病变白光内毓.图像增强内校、枭色放大.柒是食膏麻深度便测1 .货治食管M状细跑密浸润深度是否达到SY2-32 .识别微血管形态.提取诊断特征(可选)3 .根IKffi泅的浸涧深度推样手术方式(可选)门坛内摊,图像增强内做.染色放大否食管H冲脉曲张识别识别食管日静收曲张白光内镜是食竹W舲收曲生产重悭度分级l检测食管胃的脉曲张危险因索2.根据危险闲束进行严重程度分级白光内是目炎冷断1 .识帆门螺杆禧想染2 .识别萎SLHltl、耀烂性胃炎白光内传否W#常病灶见别识别胃Ii性知变,早期W枝及北端肺病变白光内HL图像增强内Ift是早期胃需诊断2:识别微啦管和微结构.提取诊断特征.R备可解择性(可选)染色放大否早期胃癌边界债测俺泅早期臼癌的愆阳及边界染色放大否(r)EGDAI系统通用性能要求参考ISO/IEC25010标准和ISO/IECIEEE29119标准对于AI医疗器械通用性能的评估角度,本共识针对EGDAI系统的规范化设计提出相应的标准和要求:1 .性能效率:(1)实时处理效率:人眼在画面播放速率(每秒帧数)达到1624fps时,会认为这些画面是一个连续运动的场景。为确保医师在使用过程中得到及时的实时反馈和分析结果,对于有动态识别要求的功能,系统应具备高效的图像处理能力,实时处理效率应16帧/s。(2)画面延迟与原始内镜影像系统的画面延迟应50ms,确保医师能够无缝观察和诊断。2 .易用性:产品界面应直观、简洁,减少医师学习成本。界面设计和操作逻辑应符合医师日常使用习惯,切换功能时应尽量采用AI自动识别应用场景并切换的方式,减少对医师实际操作的干扰。3 .可用性:在常规医疗环境下,系统应确保用户能够安全、正确地操作,减少误操作的可能性。配备足够的提示和帮助文档,以应对医师在操作中可能遇到的疑问。AI产