最新:肠镜人工智能系统临床应用专家共识(完整版).docx
最新:肠镜人工智能系统临床应用专家共识(完整版)我国结直肠癌发病率居恶性肿瘤第二位,死亡率居第四位,且2000至2016年以来,结直肠癌的发病率和死亡率呈现上升趋势。早诊早治是改善结直肠癌预后的重要手段。炎症性肠病(inflammatoryboweldisease,IBD)是一类以肠道黏膜慢性炎症反复发作且迁延不愈为主要特点的疾病,近二十年在我国发病率逐年升高。IBD的鉴别诊断、严重程度评估以及转归预测对患者的疾病精准管理具有重要意义。肠镜是检出、诊断和治疗结直肠癌及癌前病变、IBD等疾病的临床一线工具。利用肠镜可以观察结直肠黏膜,检出并切除早期结直肠癌及癌前病变。肠镜筛查项目的普及有效降低了结直肠癌的发病率和死亡率。内镜有助于IBD活动度评估,为临床医师进行后续治疗方案选择提供重要依据。然而,我国肠镜仍然存在退镜时间不规范、病灶漏诊率高、内镜医师之间诊断一致性差等问题。退镜时间影响内镜医师对结直肠黏膜的检查质量,欧洲胃肠内镜协会(EuropeanSocietyforGastrointestinalEndoscopyzESGE)、美国胃肠内镜协会(AmericanSocietyforGastrointestinalEndoscopy,ASGE)均推荐肠镜退镜时间应6mino然而,据Xiang等的多中心临床研究统计,有超过80%的肠镜退镜时长不足6mino腺瘤检出率(adenomadetectionrate,ADR)是肠镜质量控制的重要指标之一,ADR每增加1%,发生致死性间隔期结直肠癌的风险将降低5%o据Zhao等meta分析报道,肠镜筛查中ADR平均约为22%,但一项涉及136名胃肠病医师的调查研究发现,内镜医师之间的ADR参差不齐(7.4%52.5%),因此,亟需新的辅助工具改善肠镜的诊疗质量。人工智能(artificialintelligence,AI)是随着互联网、计算机行业的迅猛发展而取得爆炸式进展的高新技术,在医疗领域取得广泛应用。深度学习技术是AI的分支在图像识别任务中具有较强能力。近年来,中外学者就AI在肠镜的探索和应用中取得众多先进性成果,覆盖了肠镜检查的方方面面,并就Al应用于临床实践的有效性、安全性开展临床试验,取得显著收效。AI设备引入临床已是箭在弦上,大势所趋。本共识旨在综合现有研究证据,为临床医师在应用肠镜AI辅助模型时提供决策参考。但它不是强制标准,也不可能包含或解决技术相关的全部临床问题。建议临床医师在面对具体患者时,应充分了解目前能够获取的最佳临床证据,结合患者病情和治疗意愿,结合自己的专业知识、临床经验和可获得的医疗资源,综合制定临床决策。本共识基于PICO(participants,interventions,comparisons,outcomes)原则提出陈述意见,参考GRADE(gradingofrecommendations,assessment,development,andevaluation)系统对证据质量(表1)和推荐强度(表2)进行分级,采用改良Delphi方法由专家投票表决达成共识:完全同意;同意,有较小保留意见;同意,有较大保留意见;不同意。其中,投票表决意见中+比例80%属于达成共识,共识水平以表决意见中的+比例表示。最终本共识达成80%以上共识水平的推荐意见共9大类12项表3)。随着以后更多消化内镜Al相关文献发表,本共识将进一步更新,以期未来在统一诊断标准下实现AI辅助下的肠镜的早诊、早治,以及制定更加准确的治疗策略。表1证据质量的推荐分级评估、制定和评价证据质等定义量级高等质非常确信估计的效应值接近真实效应值,进一步研究也A量不可能改变其可信度中等质对估计的效应值确信度中等,其有可能接近真实效应B量值,进一步研究有可能改变其可信度低等质对估计的效应值确信度有限,其与真实效应值可能大不C量相同,进一步研究极有可能改变其可信度很低等对估计的效应值几乎没有信心,其与真实效应值很可能D质量完全不同,对其的彳到可估计都很不确定表2推荐强度分级推荐定义强度明确显示干预措施利大于弊或者弊大于利,在大多数情况下适强用于大多数患者利弊不确定,或无论质量高低证据均显示利弊适当,适用于很弱多患者,但根据患者价值观与偏好性会有差异表3肠镜人工智能系统临床应用专家共识陈述汇总证据推荐共识推荐意见质量强度水平一、术前肠道清洁度评估陈述1:对于接受肠镜检查的患者,推荐使用AIA强95.4辅助术前肠道准备评估5%二、术中肠道清洁度评估陈述2:对于接受肠镜检查的患者,推荐使用AIC强90.9辅助术中肠道准备评估1%三、肠镜质量控制陈述3:对于接受肠镜检查的患者,推荐使用AIA强95.4辅助统计盲肠插镜率5%陈述4:在退镜过程中,推荐使用AI辅助计算退A强95.4镜时间5%陈述5:对于接受肠镜检查的患者,推荐使用CA强86.3AQ提高ADR6%四、肠镜息肉识别陈述6:对于接受肠镜检查的患者,推荐使用CADe提高ADRA强86.36%陈述7:同时使用CAQ和CADe相匕弹独使用CADe可以进一步提升ADR才隹荐在肠镜检查中同时使用CAQ和CADeA强95.45%五、肠镜下息肉分型陈述8:对于5mm的结直肠息肉,推荐使用AI预测息肉病理性质以辅助诊疗决策B强81.82%六、肠癌浸润深度预测陈述9:对怀疑存在黏膜下浸润的结直肠息肉,推荐使用AI预测其浸润深度B强86.36%七、炎症性肠病诊断陈述10:对怀疑炎症性肠病的患者,推荐使用AI辅助进行内镜下诊断C强86.36%八、溃疡性结肠炎内镜下活动度评估陈述11:对确诊溃疡性结肠炎的患者,推荐使用AI辅助进行内镜下活动度评估B强90.91%九、模型可解释性陈述12:可解释性的多模态AI模型性能优于传统Al模型,推荐优先使用具备可解释性的多模B强90.91%态AI模型注:AI指人工智能;CAQ指计算机辅助质量控制;ADR指腺瘤检出率;CADe计算机辅助息肉检测一.肠镜Al系统功能(一)术前肠道清洁度评估陈述1:对于接受肠镜检查的患者,推荐使用AI辅助术前肠道准备评估。(证据质量:A;推荐强度:强;共识水平:95.45%)充分的肠道准备是肠镜发现腺瘤和预防结直肠癌的关键。在常规实践中,结肠镜检查前的肠道准备评估主要由患者自己进行。然而,患者独立评估可能由于宣教程度不足或主观性等因素导致评估不够准确,进而导致患者在肠道准备不充分的情况下接受结肠镜检查。1.u等通过随机对照临床试验比较了患者自评和AI术前肠道准备评估的效果,两组的波士顿肠道准备评分(Bostonbowelpreparationscale,BBPS)、息肉检测率(polypdetectionrate,PDR)和ADR都相似。Zhu等开发了一款基于Al利用厕所粪便的照片预测患者肠道准备质量的智能手机应用程序,预测准确率达到95.15%,且在随机临床试验中,AI组充分肠道准备的患者占比(88.54比65.59%,AO.001)、BBPS总评分(6.74±1.25)分比(5.97±1.81)分,P<0.001,饮食限制遵从率(93.68%比83.81%,Ao.001)和泻药指令遵从率(96.05%比84.62%,P<0.001)方面均明显优于对照组,显著提高了患者依从性。根据现有研究AI有潜力在临床实践中替代患者自评,改进现有的术前肠道准备评估。(二)术中肠道清洁度评估陈述2:对于接受肠镜检查的患者,推荐使用AI辅助术中肠道准备评估。(证据质量:C;推荐强度:强;共识水平:90.91%)良好的肠道清洁是保证肠黏膜有效观察的前提。肠道准备不充分会导致腺瘤漏诊率升高等多种不良结果。不准确的肠道准备评估可能导致结肠镜复查周期不必要地缩短,从而增加成本和并发症风险,或不当地延长复查周期,增加癌症风险。因此,指南建议准确地识别肠道准备不充分患者,并推荐这些患者接受肠镜复查以确保肠镜检查的有效性。Wang等利用119个视频中获取的10118张图像,建立基于U-NET卷积网络体系结构的深度学习模型,以实现对粪便污染部分的自动分割,AI标记区占人工标记区域的94.7%±0.67%,每张图片的分割仅用时03634so1.ee等使用来自200个结肠镜检查的73304张图像开发AI肠道准备评估模型,模型评估肠道准备不足的灵敏度为100%,医师评估者之间的一致性为68.9%,而评估者和AI的一致性为89.7%oZhou等回顾性地收集5583张肠镜检查图像以训练系统,然后通过人机竞赛将其性能与内镜医师进行比较,其准确率优于所有内镜医师。Zhou等开发了一种基于深度学习的自动波士顿肠道准备评分(automaticBBPS,e-BBPS)系统,该系统评分与ADR显著负相关(P=-0.976,P<0.01)o根据ADR25%的结肠镜筛查目标,将e-BBPS3分设置为阈值以确保ADR25%,并且发现e-BBPS>3分的患者ADR明显低于e-BBPS3分的患者(15.93%比28.03%,A0.001)。(三)肠镜质量控制陈述3对于接受肠镜检查的患者推荐使用AI辅助统计盲肠插镜率。(证据质量:A;推荐强度:强;共识水平:95.45%)陈述4:在退镜过程中,推荐使用AI辅助计算退镜时间。(证据质量:A;推荐强度:强;共识水平:95.45%)陈述5:对于接受肠镜检查的患者,推荐使用计算机辅助质量控制(computeraidedqualitycontrol,CAQ)提高ADRo(证据质量:A;推荐强度:强;共识水平:86.36%)盲肠插镜是完全结肠镜检查的先决条件,充足的退镜时间是全面黏膜检查的前提,二者与间隔期结直肠癌风险高度相关。ADR是结肠镜检查质量控制的重要指标,研究表明ADR每提高1%,可使间隔期结直肠癌风险降低3%,结直肠癌死亡率降低6%o良好的结肠镜质量控制要求达盲率90%,退镜检查时间6min,ADR25%在肠镜退镜过程中,退镜时间过短、退镜速度过快、滑镜、肠壁黏膜褶皱会导致结肠镜检查时出现盲区和漏诊的情况从而影响ADRoASGE指南建议结肠镜退镜时间为610min,中国早期结直肠癌筛查及内镜诊治指南(2014年,北京)建议的退镜时间应不少于6mino然而,尽管指南对肠镜退镜进行了明确规范,在实际临床实践中,由于缺乏有效监管和实用的监督工具,加上我国患者数量庞大,现有内镜医师数量不能满足日益增长的结肠镜检查需求,肠镜退镜质量往往达不到指南规定标准。目前关于AI在肠镜退镜质量控制方面的研究日益增加。Gong等利用20000多张结肠镜图像通过VGG-16和感知哈希算法构建了一个CAQ系统,以实时监测盲肠插镜、退镜速度及退镜时间,并提醒内镜医师因滑镜而引起的盲区;随后该团队招募791例患者进行随机对照临床试验发现Al辅助组的ADR16.34%期显高于对照组(7.74%)。Yao等在此研究基础上研发一个质量控制系统,该系统对接医院医疗信息管理系统服务端、内镜洗消追溯系统服务端、病理信息检索系统服务端数据库所存储的原始医疗数据作为输入,在后台完成对原始数据的统计、分析,再将统计、分析结果作为输出展示到前端界面,可实现包括达盲率及未达盲原因核验报告、ADR、PDRx退镜时间、肠道准备成功比例、肠癌检出率、平均采图张数等核心质量控制指标的自动评估。前后自身平行对照研究显示,在该系统辅助下的内镜医师的各项结肠镜核心评价指标均有上升,而对照组不论是在检出率、达盲率、退镜速度等方面均没有明显改善。Su等基于卷积神经网络开发结合息肉识别与退镜监控功能的CAQ系统,并发现该系统在实际临床环境中可延长退镜时间,提高ADRo除退镜时间与退镜速度外,肠道黏膜褶皱的完整观察对减少肠镜检查盲区、提高ADR也至关重要。1.iU等基于AI开发一种用于评估结肠镜退镜中黏膜褶皱检查质量的系统,该系统对肠镜黏膜褶皱检查质量的评估与结肠镜专家的评分之间存在很强的相关性,可以通过实时质量分析提醒内镜医师进行相关操作以更全面地检查黏膜褶皱,减少结肠镜检查期间的盲区。CAQ系统可以在内镜医师做检查时,实时监测退镜速度和黏膜褶皱检查情况并反馈给操作医师,保证退镜时间和速度,从而保证肠镜操作质量,减少病变漏诊;并在一定程度上缩小不同水平内镜医师技术上的差异,改善我国现阶段高水平内镜医师短缺且诊疗水平参差不齐的现状。(四)肠镜息肉识别陈述6:对于接受肠镜检查的患者,推荐使用计算机辅助息肉检测(computeraidedpolypdetection,CADe)系统提高ADRo(证据质量:A;推荐强度:强;共识水平:86.36%)陈述7:同时使用CAQ和CADe相比单独使用CADe可以进一步提升ADR,推荐在肠镜检查中同时使用CAQ和CADeo(证据质量:A;推荐强度:强;共识水平:95.45%)肠镜检查是目前检测息肉的主要方法。通过肠镜检查发现和切除腺瘤性息肉已被证明可有效预防结直肠癌,但由于视觉模式、疲劳等原因,医师可能漏掉出现在视野内的息肉,导致间隔期结直肠癌风险。近年来,研究者们开发了CADe系统以解决视野内息肉漏诊的问题。Wang等在一项随机对照临床试验中纳入1058例患者(536例患者接受普通肠镜检查,522例患者接受CADe系统辅助肠镜检查),CADe组相比对照组拥有更高的ADR(29.1%tt20.3%)oRepici等开展了类似的非盲随机对照临床研究,发现CADe组的ADR为54.8%,明显优于对照组的40.4%,证实CADe在西方人群中的有效性。Wang等随后开展了一项双盲随机对照临床试验,其中患者被随机分为假辅助组(n=478)或CADe组(n=484),结果显示CADe组的ADR为34%,优于假辅助组的28%oBarua等纳入了5项随机对照临床研究(共4311例患者方得出结论使用CADe系统辅助肠镜检查的ADR(29.6%)明显优于无辅助肠镜检查(19.3%)。不少研究已经证明CADe系统在随机对照环境中检测息肉和腺瘤的优越性。然而,其有效性最近也受到质疑。1.eVy等比较在他们的大容量中心引入CADe(GIGenius,美国Medtronic)前后6个月期间腺瘤和息肉检出率,发现CADe反而降低了内镜医师的ADR(30.3%比35.2%,<0.001)和PDR(36.5%比40.9%,P=O.004)。Wei等为进一步探索CADe在非实验环境中的真实影响,在社区中开展一项多中心随机临床研究,发现CADe组和非CADe组每次结肠镜的腺瘤检出数并无显著差异(0.73个比0.67个,P=0.496)o1.adabaum等采用历史对照与同期对照比较引入CADe前后3个月内镜医师的ADR,发现CADe对ADR的影响并无统计学意义(OR=1.14,95%C:0.83-1.56,P=O.41)。为了最大化地发挥CADe的作用,或许需要结合包括退镜速度监控、黏膜暴露实时评估在内的多维Al功能,以促进高质量的肠镜检查。此外,CADe技术的一个显著局限性是可能具有很高的误报率,即假阳性率。尽管Wang等和1.ui等实验中的误报率较低,但Hassan等报告共1092次误报,平均每例结肠镜检查27.3次。尽管CADe的假阳性已经引起关注,但目前还未发现CADe假阳性率对于内镜医师的负面影响,未来仍需进一步探究以确保CADe临床应用的安全性。Areia等使用Markov模型对CADe进行经济效益评估,并发现CADe能够将每个肠镜筛查患者的成本从3400美元降低到3343美元。研究发现,将AI检测工具引入结肠镜筛查是一种节省成本且能进一步预防结直肠癌发病和死亡的策略。在CADe和CAQ联用方面Jao等关于CADe系统与CAQ系统的四组平行对照临床研究表明,CAQ可使ADR从14.76%显著提高到24.54%;与单独使用CADe系统相比,CADe与CAQ联合可使ADR额外增加9.33%,这项研究表明CADe和CAQ之间的互补性。为探究CADe和CAQ联用对新手医师的影响,Yao等开展一项多中心串联临床试验,发现CADe与CAQ联合辅助内镜医师进行肠镜检查可以使新手医师的腺瘤漏诊率非劣于专家医师(18.82%比26.97%,P=0.202)(五)肠镜下息肉分型陈述8:对于5mm的结直肠息肉,推荐使用AI预测息肉病理性质以辅助诊疗决策。(证据质量:B;推荐强度:强;共识水平:81.82%)结直肠癌癌前病变指被证实与结直肠癌发生密切相关的病理变化,具体包括结直肠腺瘤、腺瘤病(息肉病伴异型增生)、无蒂锯齿状病变、传统锯齿状腺瘤以及IBD相关异型增生等。大部分的结直肠癌是由癌前病变演变而来。确诊结直肠癌癌前病变的金标准主要是病理诊断,然而研究显示,肠镜检查发现的息肉有40%60%是良性息肉,几乎不会进展为结直肠癌,可暂时不予切除。若内镜医师能在肠镜检查时通过光学诊断准确判断5mm结直肠息肉的性质,避免不必要的息肉切除和病理检查,将节省一笔相当可观的医疗费用,提高肠镜筛查的成本效益。我国内镜医师经验水平参差不齐,目前仍然存在医疗资源供需严重失衡以及地域分配不均情况,缺乏经验的内镜医师利用光学诊断判断息肉性质的准确率仍有待进一步提升。Komeda等使用62510张腺瘤性息肉图像、30443张增生性息肉图像和34657张结直肠正常黏膜图像,使用深度学习技术开发可以准确判断结直肠息肉分型的模型,准确率达91.5%o宫德馨等使用2056张非腺瘤性息肉与2987张腺瘤性息肉的窄带光成像(narrow-bandimaging,NBI)图片,开发基于深度学习技术的NBI光源下息肉性质判定系统,在该系统辅助下,消化内镜新手医师的息肉分型准确率显著提升。Mori等在前瞻性研究中使用Al对检测到的微小息肉(5mm)进行实时性质预测,并与切除标本的病理诊断进行比较,结果显示AI对直肠和乙状结肠小型腺瘤的阴性预测值分别为96.4%和93.7%,超过非肿瘤性息肉进行诊断并保留策略所需的阈值。Zachariah等建立了一个AI光学病理模型,使用6223张已知病理、位置、大小和光源的5mm结直肠息肉图像进行5倍交叉训练。在包含634张5mm息肉图像的独立验证集中模型阴性预测值为97%,监测间隔一致性为94%vanderZander等开发并前瞻性试验验证使用高清白光和蓝激光图像的计算机辅助诊断系统,并将该系统与专家和新手内镜医师的光学诊断进行比较,结果显示综合白光和蓝激光图像(多模态成像)的总体诊断准确率为95.0%,显著高于专家(81.7%)和新手内镜医师(66.7%),AI的敏感度也更高(95.6%比61.1%.55.4%),而专家的特异度高于AI和新手(95.6%比93.3%、93.2%)。息肉性质的判断需要内镜医师具有丰富的经验及扎实的理论基础,使用Al辅助系统,能够提升内镜医师息肉分型的准确率,有望进一步提高结直肠镜筛查的成本效益。(六)肠癌浸润深度预测陈述9:对怀疑存在黏膜下浸润的结直肠息肉,推荐使用Al预测其浸润深度。(证据质量:B;推荐强度:强;共识水平:86.36%)结直肠癌浸润深度是决定治疗决策的重要标准之一。一般有两种切除方法:内镜下切除和外科手术切除。从组织病理学角度看,腺瘤和黏膜下浅层浸润结直肠癌(SM1)应内镜下切除,而黏膜下深层浸润性结直肠癌(SM23)和侵犯肌层或更深的结直肠癌应手术切除。然而,术前准确诊断结直肠癌浸润深度仍是一个挑战。一项多中心前瞻性研究报道,多达40%的SM2-3被误诊为SM1,内镜医师诊断SM23的敏感度仍存在较大不足。为克服结肠镜检查中的这一挑战,使用AI辅助诊断结直肠癌浸润深度近来获得越来越多的关注。白光是最常见的内镜检查方式。Tokunaga等从1035个结直肠癌中(105个低级别上皮内瘤变、377个高级别上皮内瘤变、107个SM1、146个SM2和300个进展期结直肠癌提取3442张图像其中2751张图像用于训练,691张图像用于测试,AI系统以96.7%的敏感度、75.0%的特异度和90.3%的准确率区分内镜下可治疗和不可治疗病变,表现优于新手医师并且与专家相当,在AI系统辅助下,新手医师表现出与专家相媲美的诊断能力。1.uo等构建了一个AI系统,在包含进展期结直肠癌时,以91.1%的准确率、91.2%的敏感度和91.0%的特异度区分SM1和SM2;在去除进展期结直肠癌进行预测时,准确率、灵敏度和特异度分别为68.3%、65.3%和68.5%o另夕卜,Yang等训练了一个七分类的系统对TNMI4期结直肠癌、高级别上皮内瘤变、管状腺瘤和非肿瘤性病变进行预测;Choi等开发一个AI系统对正常、低级别上皮内瘤变、高级别上皮内瘤变和腺癌进行预测;Meng等开发了一个AI系统用于预测高级别上皮内瘤变。染色内镜虽然是评估结直肠癌浸润深度的重要方式,但目前AI应用于该方面的研究仍较少。Tamai等使用放大内镜结合NBI图像开发了一种基于手动特征提取的AI算法,专注于表面血管形态,使用来自121个病变的121张图像作为测试集,该模型基于Sano分型将放大内镜结合NBI图像分为3类(CPI型,CP11型+CP11IA型,CP11IB型),分别对应非肿瘤性息肉、腺瘤、SM1和SM2,该模型在识别SM1时,敏感度为84%,特异度为83%o止匕外,另外一项研究比较AI模型使用白光和NBI预测SM2的能力,发现NBl具有更高的敏感度(94.6%比78.2%,P<0.0001)、特异度(92.3%比72.6%,P=O.05)、准确率(94.3%比76.0%,<0.00001)oOnji等使用经过结晶紫染色的放大图像开发AI模型,基于Pitpattern分型,对结直肠癌黏膜表面腺管形态进行定量分析,并描述量化的腺管形态与肿瘤组织学之间的关系。Okamoto等基于NICE分型和JNET分型的计算机辅助诊断系统CADx-N与CADx-J均具有良好的诊断效能,CADx-N对1、2、3型的诊断准确率分别为97.5%、91.2%、93.8%zCADx-J对1、2A、2B、3型的诊断准确率分别为96.9%、86.3%、84.1%和94.1%。(七)IBD诊断陈述10:对怀疑IBD的患者,推荐使用AI辅助进行内镜下诊断。(证据质量:C;推荐强度:强;共识水平:86.36%)IBD包括溃疡性结肠炎(ulcerativecolitis,UC)和克罗恩病(Crohndisease,CD),是一类以反复发作的胃肠道炎症为特点的慢性疾病,其临床症状包括腹泻、腹痛、出血等,严重影响患者生活质量。虽然UC与CD具有相似的临床表现,但治疗策略与预后不同,因此鉴别诊断在临床实践中意义重大。IBD基于临床症状、内镜、放射学、组织学等多维度诊断,其中内镜在IBD诊断中起到关键作用。针对内镜下IBD鉴别诊断,Kim等开发了一个深度学习模型,就内镜下CD与白塞病及肠结核的图像进行分类与鉴别,其AUC分别达到0.8548、0.7846与0.8586,初步显示AI在CD与其他溃疡性疾病鉴别诊断中应用潜力。2020年Takenaka等在一项纳入875例UC患者的单中心诊断性研究中验证其开发的基于内镜图像评估UC的AI模型,其模型在内镜下识别UC缓解期的准确率为90.1%,组织学识别UC缓解期的准确率为92.9%o同年Wang等建立模型在鉴别CD与UC方面也取得不错表现(Al总体准确率90.91%,而6名临床医师准确率分另!J为93.94%、78.79%、83.33%、59.09%、56.06%和90.91%),AI在内镜下鉴别CD与UC的准确率上优于大多数医师。另外,Chierici等基于多种算法对CD与UC的二分类鉴别进行测试在有病理核验的外部测试集上马修斯相关系数达到0688,证明AI在CD与UC的鉴别诊断中具有相当的应用潜力。()UC内镜下活动度评估陈述11:对确诊UC的患者,推荐使用AI辅助进行内镜下活动度评估。(证据质量:B;推荐强度:强;共识水平:90.91%)UC发病机制复杂,被认为与肠上皮屏障功能障碍、肠道菌群紊乱、免疫功能失调共同作用相关。准确评估内镜下肠道表现对诊断与治疗至关重要:一方面,内镜下黏膜受累情况反映疾病活动度;另一方面,内镜评估黏膜缓解代表着更好的长期预后,是STRlDE-Il等指南中推荐的关键治疗目标之一。然而,现有的内镜评估标准都具有相当的主观性,在不同内镜医师之间可能存在差异,这种差异可能与医师是否接受专门培训以及评估经验等相关,无法保证评估的稳定性与可重复性。AI在UC肠镜的图像分析中,可以实时识别大量的黏膜形态与特征,能够注意到许多医师在检查过程中所忽视的细节,从而更加客观地评估UC患者的肠黏膜状态。2019年,日本研究者OZaWa等基于UC的梅奥内镜下评分(MayoendoscopicscorelMES)训练并且评估了一个卷积神经网络模型,该模型使用来自841例UC患者的26304张静态图像,以专家内镜医师的评分作为标准,在区分内镜缓解(MES评分0分或1分)与内镜活动(MES评分2分或3分)方面表现出不错的精度,其AUROC达到0.970,表明AI有可能被用来评估UC内镜下的严重度。进一步的Jakennaka等基于UC内镜严重度评分(ulcerativecolitisendoscopicindexofseverityzUCEIS)与Geboes组织学评分分别训练模型,用于验证AI评估内镜下活动度与组织学活动度,其准确率分别达到90%与93%o最近,在同一团队的后续研究中,其模型预测的结果与患者的临床表现相吻合,首次表明AI内镜下活动度评估可能预测患者预后。同期,由GOttlieb等进行的研究采用米利珠单抗临床试验患者的795个全长内镜视频,验证了其所训练的模型可以对视频进行MES评分与UCEIS评分从而评估内镜下活动度,其二次加权Kappa值为0.844,而专家为0.855,该研究表明,AI评估内镜下活动度具有较好的一致性,也提示深度学习模型有望用于实时评估UC患者的黏膜状态。近期,Fan等开发一种专用于UC的内镜评估系统。该系统将肠段分为5个主要节段(盲肠和升结肠、横结肠、降结肠、乙状结肠、直肠)与多个子段。系统先对每个节段进行评估和评分,再用二维图像展示并且使用不同颜色来对不同活动度的病灶进行分级,其MES评分几乎与医师一致(Qo.8),对于UCEIS三项子评分血管模式(02分)、出血(03分)以及糜烂和溃疡(03分),其准确率也达90.7%,84.6%和77.7%0不仅提供了较为准确的活动度评估,也在全肠段尺度上给出了综合的空间分布评估。综上所述,多个AI内镜评估系统已经在评估UC肠道黏膜表现中得到令人振奋的结果,其在临床实践中应用的可能性已经被证明,但离真正应用于临床还有距离,需要继续优化以克服污物、气泡等干扰因素,完善模型可解释性评价,并且进行进一步的多中心前瞻性临床试验。我们相信建立稳定、高效、可靠的AI辅助评估系统对UC内镜表现进行评估、报告,并辅助临床决策,可以提高临床诊断的准确率,满足疾病表现异质性对精准、个体化医疗模式的要求,将给消化内镜的AI系统带来更多新兴应用与巨大潜力。(九)模型可解释性陈述12:可解释性的多模态AI模型性能优于传统AI模型,推荐优先使用具备可解释性的多模态AI模型。(证据质量:B;推荐强度:强;共识水平:90.91%)现有肠镜AI模型多使用单一成像模式进行诊断,可能遗漏病灶特征。此外,现有的肠镜AI模型多聚焦于利用深度学习直接给出结果,为决策逻辑不透明的黑盒模型,可解释性差。AI仅输出决策结果,而不解释其决策过程和诊断依据,不仅降低医师的信任度,而且会将患者置于风险之中。为更符合临床实际诊疗路径,1.u等开发一个结合白光和影像增强内镜图像的多模态AI系统以预测深层浸润结直肠癌。该AI模型在内部和外部测试集中,准确率分别为91.61%和88.65%与医师相比,AI模型达到了与专家相当的准确率,并且与所有内镜医师相比,灵敏度最高。在视频测试中,达到了100.00%的准确率。此外,与使用相同数据集开发的基于单一光源的AI模型相比,两种成像模式结合诊断具有更高的准确率(IEE结合白光模型比单一白光模型:91.61%比88.27%;W1.结合白光模型比单一白光模型:91.61%比81.32%)。为使模型更加具备可解释性,Yao等提出了一种基于指南诊断规则的结直肠癌浸润计算系统(CCIC),该系统由5个基于深度学习的特征提取模型和一个特征拟合模型组成,将临床信息(患者性别、患者年龄、病灶大小、病灶位置)、白光和IEE图像及五个特征提取模型:NICE1型/2型或3型(Model1),颗粒型/非颗粒型(Model2),颗粒型/混合型(Model3),是否凹陷(Model4)以及巴黎分型Is11als÷11a(Model5)等9个变量输入到特征拟合模型中进行决策。结直肠癌浸润计算系统在基于图像的人机对比中达到90.40%的准确率,与专家相当,并表现出更高的特异度(96.21%比92.42%)o此外,与使用相同的患者数据构建的基于单一光源的AI模型、白光图像Model-W和基于电子染色图像的ModeI-E相比,结直肠癌浸润计算系统同样具有更高的准确率、灵敏度和特异度。二、肠镜Al系统临床应用要求(一)功能适宜性功能适宜性的具体含义指产品功能应当正确、完整且适合临床场景。现有的肠镜AI系统功能适宜性应符合表4的目标,并能够在表4中建议的多种图像模态下进行识别,以确保其功能适宜性。表4肠镜Al系统功能适宜性目标功能功能适宜性目标内镜图像模态建实时性要议求(是否必须动态识别)术前肠道准通过术前排泄物照片备评估评估肠道准备是否充普通照片否分术中肠道准通过术中肠镜影像评白光内镜是备评估估肠道准备是否充分肠镜质量控监测内镜医师退镜制速度评估肠道黏膜褶皱白光内镜是检查质量统计肠镜退镜时间监测肠镜是否达盲肠道息肉识白光内镜、电子识别肠道息肉是别染色内镜内镜下息肉预测肠道息肉的病理白光内镜、电子否分型性质染色内镜肠癌浸润深预测结直肠癌的浸白光内镜、电子否度预测润深度染色内镜、染色识别并提取浸润相放大关特征,具备可解释性(可选)根据预测的浸润深度推荐手术方式(可选)炎症性肠病内镜下诊断鉴别诊断溃疡性结肠炎,克罗恩病以及其他疾病白光内镜否溃疡性结肠评估溃疡性结肠炎内炎内镜下活镜下活动度白光内镜是动度评估(二)肠镜Al系统通用性能要求参考ISO/IEC25010标准和ISO/IECIEEE29119标准对于AI医疗器械通用性能的评估角度,本共识针对肠镜AI系统的规范化设计提出相应的标准和要求:1 .性能效率:实时处理效率:人眼在画面播放速率达到1624帧/s时,会认为这些画面是一个连续运动的场景。为确保医师在使用过程中得到及时的实时反馈和分析结果,对于有动态识别要求的功能,系统应具备高效的图像处理能力,实时处理效率应达到16帧/S。画面延迟应与原始内镜影像系统的画面延迟应50ms,确保医师能够无筵观察和诊断。2 .易用性:产品界面应直观、简洁,减少医师学习成本。界面设计和操作逻辑应符合医师日常使用习惯,切换功能时应尽量采用AI自动识别应用场景并切换的方式,减少对医师实际操作的干扰。3 .可用性:在常规医疗环境下,系统应确保用户能够安全、正确地操作,减少误操作的可能性。配备足够的提示和帮助文档,以应对医师在操作中可能遇到的疑问。AI产生的信号提示应尽量避免遮盖内镜原始画面,导致内镜医师产生误判。