2022中国人工智能系列白皮书人工智能与药物发现.docx
中国人工智能系列白皮书人工智能与药物发现二。二二年九月目录前言1第1章人工智能与肿瘤靶点识别11.1 人工智能与肿瘤靶点识别概述11.2 人工智能与肿瘤建模21.2.1 人工智能与肿瘤转录组模型21.2.2 人工智能与单细胞表观肿瘤模型51.2.3 人工智能与多模态肿瘤模型121.3 人工智能与靶点识别151.3.1 人工智能与基于单细胞RNA的靶点发现151.3.2 人工智能与基于表观的靶点发现171.3.3 人工智能与基于多组学测序技术的药物靶点发现181.4 人工智能在肿瘤靶点识别中的发展前景211.5 本章小节22第2章人工智能与苗头化合物筛选232.1 人工智能与苗头化合物筛选概述232.2 基于深度学习的苗头化合物筛选252.2.1 CPI数据库252.2.2 蛋白质和化合物典型特征表示262.2.3 基于深度学习的CPl预测模型272.3深度学习在苗头化合物筛选中的发展前景342.3.1 趋势与挑战342.3.2 实际应用352.4本章小节36第3章人工智能与药物从头设计383.1 基于人工智能的药物从头设计概述383.2 深度生成模型与小分子药物从头设计393.2.1 小分子药物合理结构的生成模型393.2.2 满足生化性质要求的小分子药物生成模型403.2.3 基于靶点蛋白结构的小分子药物生成模型433.3 深度生成模型与大分子药物从头设计463.3.1 基于深度学习的核酸类药物设计473.3.2 基于深度学习的蛋白和多肽设计483.4 本章小节50第4章人工智能与药物重定位52 12号52 22年524.3 表示学习534.3.1 基于序列的表示534.3.2 基于网络/图的表示学习564.4 药物重定位的深度学习模型574»1中j.574.4.1 以疾病为中心的模型604.4.2 模型评估614.5 药物重定位的应用624.6 本章小节65第5章人工智能与药物属性预测675.1 人工智能与药物属性预测概述675.2 多肽药物属性预测695.2.1 多肽属性预测方法705.2.2 研究难点735.3 药物属性预测最新研究进展745.3.1 基于元学习的多肽药物生物活性预测745.3.2 基于图神经网络的多肽毒性预测755.4 本章小节78第6章人工智能与药物相互作用预测796.1 人工智能与药物相互作用预测概述796.2 人工智能与药物互作用预测方法806.2.1 基于文献数据的提取方法806.2.2 基于药物关联数据的预测方法836.3 人工智能在药物相互作用预测中的发展前景89631才勾89632药物事件预测906.3.1 预测高阶药物相互作用916.3.2 整合多源数据分析926.4 本章小节92第7章药物发现中的大规模预训练模型937.2 预训练957.3 分子预训练977.3.1 基于MaskLanguageModel的分子预训练987.3.2 基于生成式模型的分子预训练997.3.3 基于对比学习的分子预训练1007.3.4 基于几何特征的分子预训练1017.3.5 基于领域知识的分子预训练1027.4 分子预训练范例1037.4.1 确定预训练任务与模型结构103-Ftj««1.7»4".3Li"i调策略,1057.4.4模型微调与评估1067.5本章小节107第8章药物发现中的可解释人工智能模型1088.1 药物发现中的可解释人工智能模型概述1088.2 可解释人工智能技术(XAl)1098.2.1 可解释机器学习1098.2.2 图结构的可解释技术1108.2.3 建模后的可解释技术1128.2.4 知识嵌入的可解释技术1148.2.5 针对注意力机制能否提供可解释的辨析1158.3 可解释人工智能在药物设计中的应用1168.3.1 XAI与定量构效关系(QSAR)1168.3.2 XAI与联合用药1188.3.3 XAI与分子属性预测1198.3.4 XAI与药靶互作1208.3.5 XAl与药物不良反应预测1218.3.6 XAI与新药设计1228.4 可解释人工智能在药物发现中的前景展望1228.5 本章小节124参考文献第1章人工智能与肿瘤靶点识别1.1 人工智能与肿瘤靶点识别概述肿瘤药物研发是人工智能(ArtifiCialintenigenCe,AI)的重要应用场景。靶点识别是肿瘤药物研发的关键抓手。近年来,在肿瘤多组学大数据的驱动下,人工智能逐渐成为肿瘤靶点研究中必不可少的研究手段Q早期的肿瘤靶点研究模式较为简单,以检测肿瘤高突变率基因为主。目前已经获批进入临床的肿瘤靶向药大部分就是靶向这些高突变率的基因编码的致癌蛋白【L然而经过临床的长时间测试,人们发现,这样的靶向方案能覆盖的肿瘤患者群体过于有限,即使是能满足靶向治疗条件的患者,也很容易出现耐药甚至转移复发的情况。近年来,生物分子测量技术的不断突破,使得人们能够从不同分子层面建立全面的肿瘤异常模型,为肿瘤靶点研究创造了新的契机。肿瘤靶点的研究从传统的关注高突变基因的单一思路,逐渐发展为多层面、多角度的研究思路。随着技术的普及和成本的下降,无论是反映肿瘤病人个体间差异的批量组学数据,还是反映肿瘤细胞间差异的单细胞组学数据都在快速产生和累积。爆发式增长的肿瘤组学大数据,为人工智能在肿瘤研究上的应用提供了数据基础。同时,组学数据具有维度高、噪声大、数据类型多样等特点,分析难度较大,也确实需要量身定制的分析方法来进行去噪和模式抽提。日益丰富的组学测量技术为发现新的肿瘤靶点提供了契机。组学通常指生物学中对各类研究对象(一般为生物分子)的集合所进行的系统性研究,如基因组学、蛋白质组学、转录组学、代谢组学等。传统的批量(bulk)组学技术是以个体为研究对象,将待测生物样本中所有细胞混合在一起进行分子测定,只能反应肿瘤个体间的差异。新兴的单细胞组学技术能对肿瘤样本中的每个细胞进行分子测量,全面刻画肿瘤细胞间及肿瘤免疫微环境的异质性,为破解肿瘤耐药性产生机制、研发新的肿瘤靶点提供了强大工具4叫近年来,组学测量技术不断融入主流的临床肿瘤学,科学研究表明可改善临床结果的多种分子靶向药也逐渐获批进入临床,加速了肿瘤治疗范式的改变,例如:曲妥珠单抗或威罗非尼等靶向药已成为表达HER2靶点的乳腺癌患者和有BRAF靶点突变的黑色素瘤患者的临床治疗标准,以免疫细胞为靶向目标的免疫检查点抑制剂也获批可用于治疗微卫星不稳定性特点的肿瘤患者叫人工智能为基于组学数据的肿瘤靶点识别提供了强大的计算工具。人工智能,更具体地说是机器学习(MaChineleaming,ML)分支,可以处理大规模异构数据集,并识别出数据中的潜藏模式。而随着技术的普及和成本的下降,肿瘤样本的批量组学和单细胞组学数据都在快速产生和累积,为人工智能在肿瘤研究上的应用提供了重要的数据基础。此外,组学数据具有维度高、噪声大、数据类型多样等特点,分析难度较大,需要量身定制的分析方法来进行去噪和模式抽提。目前,决策树、支持向量机等众多人工智能模型均已广泛应用到了组学数据建模和肿瘤靶点识别中17巩1.2 人工智能与肿瘤建模1.2.1 人工智能与肿瘤转录组模型1.2.1.1 肿瘤转录组异质性癌症的一大普遍特点是转录失调。在细胞内部,调节网络由一组连接的途径组成,其中途径是细胞中发生的化学反应链,通路是基因的集合,这些基因相互作用可以实现特定的细胞功能,调节细胞的状态,它们共同构成了细胞调节网络。为了使细胞正常运作,通路基因的表达水平需要得到很好的控制。然而,正常细胞和癌细胞存在许多差异表达的基因,癌细胞中的异常表达可能通过抑制或刺激途径使途径失调,这可能会影响细胞的适应性(即增殖能力),这种转录组上的差异即为癌症中的转录组异质性。转录组指的是细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA,细胞的转录组可以随外部环境条件转变I。转录组异质性在癌细胞中会急剧增加,这来源于DNA拷贝数异常,细胞所处环境的刺激,基因之间的相互作用混乱等。从转录层面来看,癌症是一种细胞调节网络混乱的疾病,因而进行转录组上的研究可为我们提供癌细胞更全面更独特的信息。对于基因组相同的细胞,也可能因其所处环境不同而表现出不同的转录状态。基于转录组的研究统称为转录组学,能够研究统计单个细胞或特定类型的细胞、组织、器官或发育阶段的细胞群内生产的各类RNA分子的类型和数量。在肿瘤细胞中,基因突变及环境的改变都会导致转录组的异质性,从而使癌细胞获得不同的功能特点,包括增殖、DNA修复、侵袭、血管生成、衰老和细胞凋亡等等,这些仅从基因组角度是无法观测到的,而单细胞RNA测序可绘制出细胞的转录图谱,从而清晰地展示细胞的转录特点。随着单细胞RNA测序技术的发展,近几年单细胞核糖核酸测序(scRNA-seq)已在世界范围内得到广泛应用单细胞测序技术可谓是科技发展史上的一大创举,可以精细区分不同细胞类型,使得在单细胞水平研究分子机制成为可能。2009年,Tang等人提出了首个SCRNA-Seq方法,开辟了单细胞水平RNA测序的新领域。随后又有多种改进的技术,如Drop-seq.Seq-WelhDroNC-seq和SPLiT-Seq等,值得注意的是,基于droplet-based的技术(DroP-Seq、InDrOP和Chromium115)通常可以提供更大的细胞通量,而且与全转录SCRNA-Seq相比,每个细胞的测序成本更低,因而被广泛应用于肿瘤单细胞研究。目前,商业化的单细胞测序技术以IOxGenomics为主,下文的数据分析也将以此为基础Q在此基础上,2017年美国安德森癌症中心的研究人员在Cen上发表了“地形”单细胞测序技术(Topographicsinglecellsequencing,TSCS)叫该方法提供了细胞位置的空间信息,能更准确地从空间上获得单个肿瘤细胞的具体特征,能够在早期癌症研究方面提供有力的支持。1.2.1.2 人工智能与单细胞转录组数据分析单细胞数据处理和人工智能算法结合极为紧密,目前已有多种算法可以从繁杂的RNA测序序列中提取出用于生物学分析的转录组信息。转录组学数据的预处理主要包括质控、批次矫正、插补、降维和特征提取等步骤,下面将简略介绍这些过程的作用及现有算法Q由于转录本覆盖的偏差、低捕获效率和低测序覆盖度等因素,SCRNATeq数据的技术噪声水平比较高,破损、死亡或与多个细胞混合的细胞中会生成部分低质量的数据,这些低质量的细胞将阻碍下游的分析,并可能导致数据的误读,因此需要对测序数据进行质控(Qualitycontrol,QC)o目前质控方法主要根据基因的数量、唯一比对率、表达基因/转录的数量比对率和线粒体RNA的质量等。测序过程中的操作差异、平台差异、测序方法差异等会引入系统错误、技术混淆和生物变异,导致一个批次的基因表达谱与另一个批次的基因表达谱存在系统差异,这种差异有可能会掩盖真实的生物学差异,导致分析结果错误。因而需要对测序数据进行批次矫正。现广泛使用的去批次矫正有Harmony,LIGER和Seurat3。2020年ASTAR团队对15种批次矫正方法从多批次、多技术、模拟数据情况下识别细胞类型等多个角度进行了比对分析,得出Harmony是综合运行速度和结果准确性的最优批次整合方法。单细胞RNA-Seq数据通常包含许多由于原始RNA扩增失败而导致的缺失(dropouts),最近针对这些缺失开发了一些新的插补算法,比如SAVER“81、MAGICU91、SClmPUtel23、DrImpute121AutoImpute1221等。其中SAVER利用基于UMl的SCRNAseq数据来恢复所有基因的真实表达水平;MAGIC通过构建基于马尔可夫亲和度的基因表达图来进行基因表达的计算;ScImput可以利用其他类似细胞中不太可能受dropout影响的相同基因的信息,在不引入新的偏差的情况下计算dropout值;DrImPUte则基于集群将dropout中的零从真正的零中分离出来;AutoImpute基于自编码通过学习scRNA-seq数据的固有分布来寻找缺失的值。由于单细胞RNA数据是超高维的,数据降维可降低实验误差与数据噪声的影响,并挖掘数据内部的本质结构特征,便于后续计算以及数据可视化。主流的降维和特征提取算法可以分为基于矩阵分解的、基于图的和基于神经网络的降维算法三大类,其中主流的为主成分分析、t-随机邻域嵌入、均匀流形逼近和投影。主成分分析(PrinCiPaIcomponentsanalysis,PCA)是最常用的线性降维方法。t-随机邻域嵌入(t-distributedstochasticneighborembedding,t-SNE)是一种非线性降维方法,能够根据在邻域图上随机游走的概率分布在数据中找到其结构关系。均匀流形逼近和投影(UniformManifOklAPPrOXimationandProjection,UMAP)是基于k近邻理论使用随机梯度下降优化结果。1.2.2 人工智能与单细胞表观肿瘤模型1.2.2.1 肿瘤中的表观遗传模型染色质结构定义了DNA形式的遗传信息在细胞内的组织状态,其中基因组这种精确紧凑结构的组织极大地影响了基因被激活或沉默的能力。表观遗传学最初被C.H.Waddington23定义为“基因及其产物之间的因果相互作用,从而导致表型的形成”,涉及到理解染色质结构及其对基因功能的影响。Waddington的定义最初是指表观遗传学在胚胎发育中的作用。然而,表观遗传学的定义随着时间的推移已经演变,因为它涉及到各种各样的生物过程。目前对表观遗传学的定义是“研究独立于原始DNA序列变化而发生的基因表达的可遗传变化工这些可遗传的变化大部分是在分化过程中建立的,并在细胞分裂的多个周期中稳定地维持,使细胞在包含相同遗传信息的同时具有不同的身份。这种基因表达模式的遗传性是由表观遗传修饰决定的,包括DNA中胞咯唬碱基的甲基化、组蛋白的翻译后修饰以及核小体沿DNA的定位。这些修饰的补充,统称为表观基因组。如果不能正确维护可遗传的表观遗传标记,可能会导致各种信号通路的不适当激活或抑制,并导致癌症等疾病状态已久表观遗传学领域表明除了大量的基因改变外,人类癌细胞还存在全局表观遗传学异常12叫这些基因遗传和表观遗传的改变在癌症发展的各个阶段相互作用126】。目前癌症的基因起源已被广泛接受,表观遗传改变可能是某些形式癌症的关键初始事件囚。这些发现促使研究人员开始探索表观遗传学在癌症的起始和传播中的作用128】。与基因突变不同的是,表观遗传畸变具有潜在的可逆性,因此可以通过找到表观遗传层面肿瘤的靶点信息,治疗患者,使癌细胞恢复为正常状态。表观遗传畸变具有的可逆性使此类举措具有广阔的前景129】。第二代测序技术的进步,推动了表观遗传学的发展。例如,ChIP-Seq133方法可以绘制组蛋白修饰和转录因子结合的全基因组图谱;利用ATAC-Seq可以测定染色质可及性;使用Hi-C河等方法确定高阶染色质结构;DNA甲基化则可使用RRBSRI、WGBS4或基于阵列的技术来确定。此外,表观基因组也被用于癌症诊断与辅助治疗。为了实现这些目标,我们需要实现自动化决策系统,应用于癌症的临床预防、诊断和治疗中倒Q当前生物表观遗传辅助诊断仍面临许多挑战,尤其是临床环境数据分布广泛、模态多且高度复杂,使得单独调查单个实验-对照数据的传统方法效果有限。机器学习技术能够集成大型和复杂的数据集,推动临床诊断的发展倒,并帮助医生进一步解析临床表观遗传数据RI(图1-1)。ProteomicsTranscriptomicsEpigenomics DataUnsupervised LearningSupervised LearningLearningDiseases / CancerDrug ResponseEpigenome图机器学习在表观遗传的应用网1.2.2.2 人工智能与基于甲基化测序技术的肿瘤表观遗传模型基因甲基化是表观遗传的主要形式之一,同癌症的发生与发展有重要联系。DNA甲基化代表基因组的直接修饰,并调控基因表达。目前几乎所有肿瘤都已发现特异性的基因甲基化标记物。相比正常细胞,癌细胞的基因甲基化水平有显著下降,是癌细胞基因调控失稳的重要原因之一。在正常组织中,细胞通过基因甲基化实现表达调控,当相关基因调控区的CpG岛大量发生甲基化时,便可阻止该基因的表达,实现基因沉默138】。DNA甲基化导致基因沉默的已知机制大致可分为三种:1)DNA甲基化干扰转录因子对DNA元件的识别与结合;2)序列特异性的甲基化DNA结合蛋白与启动子区甲基化CPG岛结合,募集组蛋白去乙酰化酶(HDAC),形成转录抑制复合物,进而阻止转录因子与启动子区靶序列的结合,最终阻止基因转录表达网1;3)DNA甲基化通过改变染色质结构,使染色质结构更加紧密,影响转录因子与DNA结合,进而使转录失活由此可见,癌细胞通过降低自身的甲基化水平,可大量转录本应处于静默态的基因,降低细胞的表达调控稳定性,进而实现快速增殖、耐药重编程等特性口久甲基化与癌症发生的因果关系存在两类主要学说:1)细胞在癌变后启动了重编程通路,随后对DNA进行了甲基化改写,即癌变导致甲基化重编程;2)癌症由正常细胞的甲基化紊乱发展而来,即甲基化错误导致癌症。两大学说均有若干证明。众多研究发现低甲基化在多种恶性肿瘤乳腺癌、子宫颈癌、脑癌中可见,并且在免疫缺陷的许多癌症患者中,染色体1和16上的中心周围染色质区域严重低甲基化,这些都证实了甲基化紊乱与癌症的关联241。基因甲基化在临床中被大量用于癌症早筛和诊断。例如,mSEPT9基因甲基化是结直肠癌的重要生物标记物,其编码的SEPT9蛋白,在细胞代谢中发挥重要作用,并被FDA批准用于结直肠癌诊断中。该蛋白可阻止细胞过快分裂或以不受控制的方式增殖,从而达到抑癌基因的效果。当SEPT9启动子区域甲基化时,SEPT9蛋白停止表达,最终导致上皮细胞癌变,最终发展为结肠癌阴,切。再如,RASSFlA基因甲基化是肺癌的关键生物标志物。RASSF1A基因参与细胞周期调节、诱导细胞凋亡和稳定微管等多种细胞生理功能。RASSFlA基因甲基化会导致RASSFlA基因表达静默,进而干扰细胞在出现基因损伤后经由细胞周期检查点机能诱导细胞凋亡,进而促进了癌细胞的存活和生长阿。基因甲基化靶点的发现主要依靠人工智能算法,其关键在于从大量高噪声数据中识别出同癌症发生相关度高的基因甲基化信号,主要包括以下难点:1)基因甲基化数据多为组织级测序数据。该数据混合了各癌症克隆亚型以及各类正常细胞型的甲基化信号,数据采样率低、随机性大。2)基因甲基化导致基因模式较多、差异度大,CpG岛在DNA中分布广泛。单一基因的表达静默或开启存在多种不同的甲基化模式,细胞癌变往往是多基因共同作用的结果。3)维度高、数据量相对有限。机器学习在表观遗传领域的研究多集中于分类问题。问题核心是如何建立一个模型,能够准确预测出给定样本的类别信息,例如从阵列数据中区分正常与癌症样本。主要的方法包括支持向量机(Supportvectormachine,SVM)>树(Decisiontree,DT随l(Randomforest,RF)和朴素贝叶斯(NaiVebayeS,NB)等。SVM依赖于对数据进行高维拓扑,并在拓扑空间中找到分类超平面实现分类。WayneXu等研究者在识别黑色素瘤和软组织肉瘤的问题上,正确地分类了76个样本中的75个46。决策树对数据进行逐层分类分割,逐步细化分类结果,可适应癌症DNA甲基化数据的高度异质性。AtSUShiKaneda等研究者使用DT在结直肠癌样本的测试集上达到了95%的准确率,并识别出三种结直肠癌亚型表观层面的生物标志物HLNB是另一种广泛使用的监督学习方法,可以整合数据中存在的不确定性,并且易于解释。其理论核心为贝叶斯定理中的条件概率模型物。深度学习也广泛应用在DNA甲基化数据上。如电子科技大学ShicaiFan团队提出MRCNN使用卷积神经网络(ConVOIUtionaIneUraInetWorkS,CNN)根据附近的DNA序列预测全基因组甲基化水平口叫该方法以93.2%的准确度预测甲基化与非甲基化区域。哈尔滨工业大学王亚东团队在2019年使用变分自动编码器(VariatiOnalauto-encoders,VAE)和t-SNE来压缩450K甲基化数据以进行逻辑回归分类W,体现了VAE编码对解释复杂的高维非线性数据的价值13久针对数据维度过高的挑战,已有工作主要从特征排序、特征选择和特征融合三个方向着手降低维度。特征排序通过假设检验检测特征同标签关联,并对特征的重要度进行排名。例如T检验计算P值来衡量零假设,即潜在假设是患者样本和对照组样本都符合正态分布。WiICOXorl检验(WteSt)评估两个分布之间的差异,其作为T检验的替代521。卡方检验(Chi-SqUaredteSt,Chi2)则评估两个互斥类中的一个特征是否具有统计学显著性差异图。LiZhou等人使用假设检验的数据挖掘方法,评估hsa-mir-3923(MiCrORNA的一种)表达与临床相关及病理调控变量的关系,发现胃癌中66个基因与hsa-mir-3923可能存在密切关系61。特征选择主要依靠在机器学习模型中融入特征筛选压力。其中递归特征消除(Recursivefeatureelimination,RFE)是一种常用的具有特征系数的分类模型特征选择框架。特征将递归评估其模型系数,系数最小的特征将被移除。例如AlhasanAlkuhlani等研究者使用SVM-RFE算法,分别为乳腺癌、结肠癌和肺癌数据集选择了24、13和27个最佳CPG位点的子集,这些最佳CPG位点子集的分类准确率分别为100%、100%和97.67%。StefanM.PfiSter等研究者基于随机森林模型建立了100种已知的中枢神经系统肿瘤诊断系统,该方法可能对诊断精度有实质性的影响Ei。特征融合通过特征之间的关系将多特征融合为单特征,以降低特征数目。吉林大学周丰丰团队提出ReGear,使用线性回归将原始的甲基化位点特征拟合成基因特征,以大幅降低特征维度,在乳腺癌和胃癌的病例中获得了更好的分类预测准确率155】。1.223人工智能与基于染色质可及性的肿瘤表观遗传模型随着单细胞染色质可及性测序技术(ATAC-Seq)的出现,染色质可及性已成为癌症研究的重要问题之一。单细胞染色质可及性测序技术的本质是在单细胞水平检测基因所在染色体是否处于开放状态:处于染色质开放状杰的基因可被转录并表达。染色质处于闭合状态的基因则被静默。染色质可及性是表观遗传调控的一种表征,通常与DNA甲基化相关。相比基因甲基化测序,染色质开合提供了更为直接和确定的观测一一处于打开状态的基因处于非静默状态,而处于闭合状态的基因则一定处于静默状态Q目前发现染色质开合同癌症的发生、发展、产生耐药性有相关性,可用于癌症诊断和预后预测等临床问题中。单细胞染色质可及性测序技术的核心原理与单细胞转录组测序技术较为相似,均基于微液滴微流控测序技术。然而,相比ScRNA-Seq数据,SCATAC-Seq数据分析更具挑战性。其核心难点有三:1)scATAC-seq数据高度稀疏。当前SCATACseq测序技术仅能覆盖1%的基因组。此外,测序中存在的高度随机性,导致单个细胞中,SCATAC-Seq数据信号极为微弱、信噪比低,仅能测量极少数染色质的打开基因。2)缺乏领域知识与标准。目前对于各类型细胞的染色质可及性研究较为有限,领域缺乏对各类细胞染色质可及性的全面、深入的认知,相关数据库并不完善。3)数据维度极高。由于scRNA-seq测序技术侧重于度量蛋白编码基因的RNA表达量,数据维度同基因数量相同一约为3万。相比之下,scATAC-seq技术不仅仅局限于测量蛋白编码基因区间的染色质开合状态,其测量范围被扩大到全基因组。目前已经开发了各种分析工具来使用scATAC-seq数据研究单细胞表观基因组,可以分为四大类。第一类是无监督学习算法,包括聚类和降维。ChromVAR利用开放染色质区域中出现的转录因子(Transcriptionfactor,TF)基序,使用流型学习中的t-SNE算法将单个细胞的偏差校正向量投影到二维上。该算法的优势在于它可用于计算与染色质可及性显著相关的TF结合谱,能够精确地聚类scATAC-seq剖面,并表征与染色质可及性变异相关的已知和新的序列基序.I;另一种ScABC算法则仅依赖于基因组区域内的读取计数模式,通过使用无监督的kmedoids聚类来聚类细胞,并证明了细胞类型特异性开放启动子可以更好地识别细胞类型特异性表达mi;SCRAT则是一种较为成熟的方便用户使用的软件,用于根据不同特征(例如基因集、转录因子结合基序位点等)方便地总结调控活动。利用这些特征,用户可以识别异质生物样本中的细胞亚群,推断每个亚群的细胞身份,并发现显示亚群之间不同活动的基因集和转录因子等显著特征第二类是将染色质可及性当作序列模型,用自然语言处理的方法进行分析。例如Cusanovich等人对构建小鼠器官单细胞图谱的大规模研究,使用潜在语义分析(LatentsemanticanalysisJSA)来识别细胞簇,确定了数百种具有复杂性状的细胞类型,这些数据定义了单细胞角度下常见哺乳动物细胞关于调控基因组的体内景观的。CarmenBravoGonZaIeZ-Blas提出了概率框架CiSToPic,对增强子和稳定细胞状态联合建模,用于分析造血细胞、大脑和转录因子扰动的单细胞ATACTeq数据集。实验表明该算法模型可以有效识别细胞类型、识别增强子、相关转录因子,挖掘细胞异质性信息俗叫第三类是使用图或网络的模型。例如Cicero等提出了基于图LaSSO的预测DNA的顺式调控元件方法,通过使用相似细胞组的采样和聚合来量化假定的调控元件之间的相关性,发现这些预测的相互作用与其他染色质3D结构数据兼容。第四类为综合分析工具,如SCaSat62和SnaPATAC的等01.2.3人工智能与多模态肿瘤模型1.2.3.1 基于多组学的肿瘤研究模式多组学(multiomics)分析,是指同时在多种不同的生物分子层面对研究对象进行的定量分析,通过将基因组、表观组、转录组、蛋白组和代谢组等不同模态的分子数据进行整合,来揭示潜藏在数据后的生物规律°目前,肿瘤多组学数据日益丰富和强大。传统的肿瘤多组学分析以个体为研究对象,已有一众大型国际合作项目和众多小型研究积累了大量宝贵的临床样本,TheCancerGenomeAtlas(TCGA,https:/cancergenome.nih.gov)JntemationalCancerGenomeConsortium(ICGC,https:/icgc.org)等国际项目所收录的肿瘤样本均超万例,每个样本均测量了基因组、转录组等多种组学特征,为描述肿瘤个体间差异提供了群体信息和宝贵的临床信息。新兴的单细胞多模态技术将肿瘤多组学分析的分辨率从个体水平提升至单个细胞水平,为深入解析肿瘤内部细胞在不同分子模态上的差异提供了有力工具。图12简要总结了目前已实现的单细胞多组学技术64,单细胞多组学技术为描述肿瘤内部异质性提供了强大的工具,被NatUreMethod评为2019年年度方法。Proteome图12己有的单细胞多模态技术怖川1.2.3.2 人工智能与多组学数据建模癌症多组学模型从信息整合方式上来讲可分为早期整合、中期整合和后期整合三类(图1-3)。,久早期整合采用简单的矩阵拼接的方式将不同组学的数据拼接为一个矩阵,该方法虽简单直接,但会面临“维度诅咒”问题。后期整合是指在单一组学的建模、分析完成后,对每个组学层面得到的分析结果进行整合,该方法虽较为稳定,但一般需要大量的人工干预对每种组学层面的结果进行解读,并手工融合不同组学得到的结果Q此外,以上两种方法均未充分考虑多组学数据的内在异质性及不同组学之间的潜在联系。人工智能为多组学数据建模提供了第三种方案,即通过建立可兼容不同数据特性的机器学习模型,对癌症多组学数据进行系统性建模,在兼容不同数据类型的同时,实现对不同分子层面间的关联的模拟。目前,人工智能已成为多组学数据建模的重要手段,已广泛应用在肿瘤分子分型、药物响应预测、靶点发现、生存期预测等诸多方面。相比于以个体为研究对象的bulk多组学技术,单细胞多组学技术通量高,单次即可产生成千上万个样本(细胞)的测量结果,更加适合人工智能这种需要大样本才能充分发挥效力的模型,同时单细胞技术噪声大、信噪比低,更需要人工智能模型进行去噪。EartyIntegrationB Omics L*)*Br 1H OnlIC5 La,r 2Middle Integration Analysis A ResultsLate IntegrationA Analysis> AnalysisAnalysis-AResults图13多组学数据整合的三种主要思路闾人工智能在单细胞多组学领域的应用可分为两种场景。第一种场景是不同组学的测量对象(细胞)不匹配。由于技术复杂度和测量成本等因素,会发生不同批次的细胞分别测了一种单细胞组学的场景。通常,研究人员会假设每种组学测的细胞来自同一个分布,即不同组学测的细胞不同,但每种组学测的细胞群体在细胞构成、细胞状态上不应该有显著差异。目前,最近邻闽、典型相关分析胸、非负矩阵分解67,68、流形对比吵7叫统计模型”、变分自编码器网等多种机器学习方法均已应用到不匹配场景下的单细胞多组学分析中。第二种场景是不同组学的测量对象是同一批细胞,即真正意义上的单细胞多模态。这类场景中常见的人工智能模型可分为三类R%第一类是基于矩阵分解的方法,将每种组学数据描述为一个特征矩阵和一个系数矩阵的乘积,并假设细胞在不同组学层面共享相同的系数矩阵,这类方法中代表性的工作有MOFA+的等;第二类是基于神经网络的方法,利用神经网络的高度灵活性和强大的特征提取功能,让神经网络学习到可以同时编码多种组学特征的低维向量,从而实现对单细胞多组学数据的整合,这类方法中代表性的工作有SCMVAE内、totalVlZ等;第三类是基于网络表示的方法,先用单个组学特征构建细胞的相似性网络,然后基于网络融合的方式得到单细胞多组学网络表示,这类方法中代表性工作有Seuratv4l76101.3人工智能与靶点识别1.3.1 人工智能与基于单细胞RNA的靶点发现随着近年来关于RNA失调的深入研究,以RNA失调作为肿瘤抗原(Tumorantigen,TA)的来源,寻找新的免疫治疗靶点成为肿瘤研究的一大热点bl,对不同RNA亚型及参与RNA加工的蛋白质促成癌症的机制发现,为治疗干预提供了新的机遇RU如CirCRNA在癌症中过度表达也展示了其作为疾病生物标志物的潜力D叫此外,2017年BaIZeaUJ.等人发现let7miRNA变体通过靶向癌基因(包括KARS和MYC)抑制肿瘤的发展倒,因此癌症中最常见的miRNA的减少,即let7miRNA变体被认为是一个潜在的治疗靶点。化学修饰寡核昔酸螯合或重新引入miRNA可能成为未来一种新的治疗方式,但在miRNA传递方面仍存在挑战。目前已开始了部分miRNA模拟物和miRNA抑制剂治疗肿瘤的药物试验1。此外,miRNA治疗间皮瘤的I期试验已获得初步成功B3RNA靶向药物的临床应用指日可待。最近有研究表明,选择性剪接的异常转录本有可能作为免疫检查点抑制物(ImmunecheckpointinhibitorsJCI)治疗的新分子标志物。选择性剪接广泛存在于癌症转录组中,有助于形成“癌症标志”,这是区别癌细胞与正常细胞的关键表型特征图,83对于癌症相关的选择性剪接可以通过多种机制调节癌症的进展,例如通过产生促进细胞增殖、抑制细胞死亡、避免抗肿瘤免疫或促进侵袭和转移的蛋白质异构体怙3ICI治疗中,以非同义突变所产生的癌症特异性新抗原为靶点,然而在一些癌症中该方法并不奏效,近年的研究表明,含有移码突变和异常剪接模式的转录本也会产生抗原肽阳-8叫异常转录物作为ICl的生物标志物可能具有重要潜力。如2021年YUtakaSUZUki团队利用第三代转录组测序检测到可作为非小细胞肺癌潜在新抗原转录本的异常剪接异构体,这为非小细胞肺癌的治疗提供了新的靶点Mi。转录组可用于肿瘤及免疫细胞的亚群分析,为肿瘤的发展、免疫逃逸和耐药性等研究提供更全面的信息89.9叫2017年张泽民团队通过对肝癌患者的外周血、肿瘤和邻近正常组织中的T细胞的转录组学分析,鉴定了11个T细胞亚群,描绘了其发育轨迹及每个亚群的特征基因,证明了肿瘤浸润淋巴细胞在免疫疗法开发和预测中的关键作用l911o次年,该团队对于非小细胞肺癌的研究表明,肿瘤浸润淋巴细胞的组成,状态及异质性与肺癌预后高度相关,转录组学有潜力用于癌症预后预测92。转录组层面的亚群分析可提供亚群独特的蛋白等标志和可针对特定肿瘤亚群、免疫抑制性细胞亚群制定靶点药物。从转录组出发的肿瘤细胞之间及肿瘤细胞与基质的相互作用研究也有望为肿瘤治疗提供有潜力的靶点。当前细胞间通信的识别方法有两种:(1)依赖于一种细胞类型中受体基因与另一种细胞类型中相应配体基因的表达水平的比较。CellPhoneDB方法首先计算一种类型中受体基因的平均表达和另一种细胞类型中配体基因的平均表达网,然后通过基于图形的方法生成零分布,以评估统计显著性附,并在随机排列所有细胞的类型标签后重新计算均值,最后观察到的均值与零分布进行比较来评估其统计显著性。(2)通过计算一种细胞类型的受体基因表达与另一种细胞类型中相应配体基因表达在所有SCRNAseq数据集中的相关性来识别特定的通信。2019年,BrowaeysR.等通过将基因表达数据与细胞内信号传导和基因调控网络的先验知识相结合,开发了NiCheNet算法95。NiCheNet通过将基因的表达数据与配体-靶点链接的先验知识模型相结合,推断相互作用细胞之间的活性配体-靶点链接。1.3.2 人工智能与基于表观的靶点发现表观遗传信号是最早发现的癌症治疗靶点之