2022中国人工智能系列白皮书人工智能与药物发现.docx
《2022中国人工智能系列白皮书人工智能与药物发现.docx》由会员分享,可在线阅读,更多相关《2022中国人工智能系列白皮书人工智能与药物发现.docx(128页珍藏版)》请在课桌文档上搜索。
1、中国人工智能系列白皮书人工智能与药物发现二。二二年九月目录前言1第1章人工智能与肿瘤靶点识别11.1 人工智能与肿瘤靶点识别概述11.2 人工智能与肿瘤建模21.2.1 人工智能与肿瘤转录组模型21.2.2 人工智能与单细胞表观肿瘤模型51.2.3 人工智能与多模态肿瘤模型121.3 人工智能与靶点识别151.3.1 人工智能与基于单细胞RNA的靶点发现151.3.2 人工智能与基于表观的靶点发现171.3.3 人工智能与基于多组学测序技术的药物靶点发现181.4 人工智能在肿瘤靶点识别中的发展前景211.5 本章小节22第2章人工智能与苗头化合物筛选232.1 人工智能与苗头化合物筛选概述2
2、32.2 基于深度学习的苗头化合物筛选252.2.1 CPI数据库252.2.2 蛋白质和化合物典型特征表示262.2.3 基于深度学习的CPl预测模型272.3深度学习在苗头化合物筛选中的发展前景342.3.1 趋势与挑战342.3.2 实际应用352.4本章小节36第3章人工智能与药物从头设计383.1 基于人工智能的药物从头设计概述383.2 深度生成模型与小分子药物从头设计393.2.1 小分子药物合理结构的生成模型393.2.2 满足生化性质要求的小分子药物生成模型403.2.3 基于靶点蛋白结构的小分子药物生成模型433.3 深度生成模型与大分子药物从头设计463.3.1 基于深度
3、学习的核酸类药物设计473.3.2 基于深度学习的蛋白和多肽设计483.4 本章小节50第4章人工智能与药物重定位52 12号52 22年524.3 表示学习534.3.1 基于序列的表示534.3.2 基于网络/图的表示学习564.4 药物重定位的深度学习模型5741中j.574.4.1 以疾病为中心的模型604.4.2 模型评估614.5 药物重定位的应用624.6 本章小节65第5章人工智能与药物属性预测675.1 人工智能与药物属性预测概述675.2 多肽药物属性预测695.2.1 多肽属性预测方法705.2.2 研究难点735.3 药物属性预测最新研究进展745.3.1 基于元学习的
4、多肽药物生物活性预测745.3.2 基于图神经网络的多肽毒性预测755.4 本章小节78第6章人工智能与药物相互作用预测796.1 人工智能与药物相互作用预测概述796.2 人工智能与药物互作用预测方法806.2.1 基于文献数据的提取方法806.2.2 基于药物关联数据的预测方法836.3 人工智能在药物相互作用预测中的发展前景89631才勾89632药物事件预测906.3.1 预测高阶药物相互作用916.3.2 整合多源数据分析926.4 本章小节92第7章药物发现中的大规模预训练模型937.2 预训练957.3 分子预训练977.3.1 基于MaskLanguageModel的分子预训练
5、987.3.2 基于生成式模型的分子预训练997.3.3 基于对比学习的分子预训练1007.3.4 基于几何特征的分子预训练1017.3.5 基于领域知识的分子预训练1027.4 分子预训练范例1037.4.1 确定预训练任务与模型结构103-Ftj1.74.3Lii调策略,1057.4.4模型微调与评估1067.5本章小节107第8章药物发现中的可解释人工智能模型1088.1 药物发现中的可解释人工智能模型概述1088.2 可解释人工智能技术(XAl)1098.2.1 可解释机器学习1098.2.2 图结构的可解释技术1108.2.3 建模后的可解释技术1128.2.4 知识嵌入的可解释技术
6、1148.2.5 针对注意力机制能否提供可解释的辨析1158.3 可解释人工智能在药物设计中的应用1168.3.1 XAI与定量构效关系(QSAR)1168.3.2 XAI与联合用药1188.3.3 XAI与分子属性预测1198.3.4 XAI与药靶互作1208.3.5 XAl与药物不良反应预测1218.3.6 XAI与新药设计1228.4 可解释人工智能在药物发现中的前景展望1228.5 本章小节124参考文献第1章人工智能与肿瘤靶点识别1.1 人工智能与肿瘤靶点识别概述肿瘤药物研发是人工智能(ArtifiCialintenigenCe,AI)的重要应用场景。靶点识别是肿瘤药物研发的关键抓手
7、。近年来,在肿瘤多组学大数据的驱动下,人工智能逐渐成为肿瘤靶点研究中必不可少的研究手段Q早期的肿瘤靶点研究模式较为简单,以检测肿瘤高突变率基因为主。目前已经获批进入临床的肿瘤靶向药大部分就是靶向这些高突变率的基因编码的致癌蛋白【L然而经过临床的长时间测试,人们发现,这样的靶向方案能覆盖的肿瘤患者群体过于有限,即使是能满足靶向治疗条件的患者,也很容易出现耐药甚至转移复发的情况。近年来,生物分子测量技术的不断突破,使得人们能够从不同分子层面建立全面的肿瘤异常模型,为肿瘤靶点研究创造了新的契机。肿瘤靶点的研究从传统的关注高突变基因的单一思路,逐渐发展为多层面、多角度的研究思路。随着技术的普及和成本的
8、下降,无论是反映肿瘤病人个体间差异的批量组学数据,还是反映肿瘤细胞间差异的单细胞组学数据都在快速产生和累积。爆发式增长的肿瘤组学大数据,为人工智能在肿瘤研究上的应用提供了数据基础。同时,组学数据具有维度高、噪声大、数据类型多样等特点,分析难度较大,也确实需要量身定制的分析方法来进行去噪和模式抽提。日益丰富的组学测量技术为发现新的肿瘤靶点提供了契机。组学通常指生物学中对各类研究对象(一般为生物分子)的集合所进行的系统性研究,如基因组学、蛋白质组学、转录组学、代谢组学等。传统的批量(bulk)组学技术是以个体为研究对象,将待测生物样本中所有细胞混合在一起进行分子测定,只能反应肿瘤个体间的差异。新兴
9、的单细胞组学技术能对肿瘤样本中的每个细胞进行分子测量,全面刻画肿瘤细胞间及肿瘤免疫微环境的异质性,为破解肿瘤耐药性产生机制、研发新的肿瘤靶点提供了强大工具4叫近年来,组学测量技术不断融入主流的临床肿瘤学,科学研究表明可改善临床结果的多种分子靶向药也逐渐获批进入临床,加速了肿瘤治疗范式的改变,例如:曲妥珠单抗或威罗非尼等靶向药已成为表达HER2靶点的乳腺癌患者和有BRAF靶点突变的黑色素瘤患者的临床治疗标准,以免疫细胞为靶向目标的免疫检查点抑制剂也获批可用于治疗微卫星不稳定性特点的肿瘤患者叫人工智能为基于组学数据的肿瘤靶点识别提供了强大的计算工具。人工智能,更具体地说是机器学习(MaChinel
10、eaming,ML)分支,可以处理大规模异构数据集,并识别出数据中的潜藏模式。而随着技术的普及和成本的下降,肿瘤样本的批量组学和单细胞组学数据都在快速产生和累积,为人工智能在肿瘤研究上的应用提供了重要的数据基础。此外,组学数据具有维度高、噪声大、数据类型多样等特点,分析难度较大,需要量身定制的分析方法来进行去噪和模式抽提。目前,决策树、支持向量机等众多人工智能模型均已广泛应用到了组学数据建模和肿瘤靶点识别中17巩1.2 人工智能与肿瘤建模1.2.1 人工智能与肿瘤转录组模型1.2.1.1 肿瘤转录组异质性癌症的一大普遍特点是转录失调。在细胞内部,调节网络由一组连接的途径组成,其中途径是细胞中发
11、生的化学反应链,通路是基因的集合,这些基因相互作用可以实现特定的细胞功能,调节细胞的状态,它们共同构成了细胞调节网络。为了使细胞正常运作,通路基因的表达水平需要得到很好的控制。然而,正常细胞和癌细胞存在许多差异表达的基因,癌细胞中的异常表达可能通过抑制或刺激途径使途径失调,这可能会影响细胞的适应性(即增殖能力),这种转录组上的差异即为癌症中的转录组异质性。转录组指的是细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA,细胞的转录组可以随外部环境条件转变I。转录组异质性在癌细胞中会急剧增加,这来源于DNA拷贝数异常,细胞所处环境的刺激,基因之间的相互作用混乱等。从转
12、录层面来看,癌症是一种细胞调节网络混乱的疾病,因而进行转录组上的研究可为我们提供癌细胞更全面更独特的信息。对于基因组相同的细胞,也可能因其所处环境不同而表现出不同的转录状态。基于转录组的研究统称为转录组学,能够研究统计单个细胞或特定类型的细胞、组织、器官或发育阶段的细胞群内生产的各类RNA分子的类型和数量。在肿瘤细胞中,基因突变及环境的改变都会导致转录组的异质性,从而使癌细胞获得不同的功能特点,包括增殖、DNA修复、侵袭、血管生成、衰老和细胞凋亡等等,这些仅从基因组角度是无法观测到的,而单细胞RNA测序可绘制出细胞的转录图谱,从而清晰地展示细胞的转录特点。随着单细胞RNA测序技术的发展,近几年
13、单细胞核糖核酸测序(scRNA-seq)已在世界范围内得到广泛应用单细胞测序技术可谓是科技发展史上的一大创举,可以精细区分不同细胞类型,使得在单细胞水平研究分子机制成为可能。2009年,Tang等人提出了首个SCRNA-Seq方法,开辟了单细胞水平RNA测序的新领域。随后又有多种改进的技术,如Drop-seq.Seq-WelhDroNC-seq和SPLiT-Seq等,值得注意的是,基于droplet-based的技术(DroP-Seq、InDrOP和Chromium115)通常可以提供更大的细胞通量,而且与全转录SCRNA-Seq相比,每个细胞的测序成本更低,因而被广泛应用于肿瘤单细胞研究。目
14、前,商业化的单细胞测序技术以IOxGenomics为主,下文的数据分析也将以此为基础Q在此基础上,2017年美国安德森癌症中心的研究人员在Cen上发表了“地形”单细胞测序技术(Topographicsinglecellsequencing,TSCS)叫该方法提供了细胞位置的空间信息,能更准确地从空间上获得单个肿瘤细胞的具体特征,能够在早期癌症研究方面提供有力的支持。1.2.1.2 人工智能与单细胞转录组数据分析单细胞数据处理和人工智能算法结合极为紧密,目前已有多种算法可以从繁杂的RNA测序序列中提取出用于生物学分析的转录组信息。转录组学数据的预处理主要包括质控、批次矫正、插补、降维和特征提取等
15、步骤,下面将简略介绍这些过程的作用及现有算法Q由于转录本覆盖的偏差、低捕获效率和低测序覆盖度等因素,SCRNATeq数据的技术噪声水平比较高,破损、死亡或与多个细胞混合的细胞中会生成部分低质量的数据,这些低质量的细胞将阻碍下游的分析,并可能导致数据的误读,因此需要对测序数据进行质控(Qualitycontrol,QC)o目前质控方法主要根据基因的数量、唯一比对率、表达基因/转录的数量比对率和线粒体RNA的质量等。测序过程中的操作差异、平台差异、测序方法差异等会引入系统错误、技术混淆和生物变异,导致一个批次的基因表达谱与另一个批次的基因表达谱存在系统差异,这种差异有可能会掩盖真实的生物学差异,导
16、致分析结果错误。因而需要对测序数据进行批次矫正。现广泛使用的去批次矫正有Harmony,LIGER和Seurat3。2020年ASTAR团队对15种批次矫正方法从多批次、多技术、模拟数据情况下识别细胞类型等多个角度进行了比对分析,得出Harmony是综合运行速度和结果准确性的最优批次整合方法。单细胞RNA-Seq数据通常包含许多由于原始RNA扩增失败而导致的缺失(dropouts),最近针对这些缺失开发了一些新的插补算法,比如SAVER“81、MAGICU91、SClmPUtel23、DrImpute121AutoImpute1221等。其中SAVER利用基于UMl的SCRNAseq数据来恢复
17、所有基因的真实表达水平;MAGIC通过构建基于马尔可夫亲和度的基因表达图来进行基因表达的计算;ScImput可以利用其他类似细胞中不太可能受dropout影响的相同基因的信息,在不引入新的偏差的情况下计算dropout值;DrImPUte则基于集群将dropout中的零从真正的零中分离出来;AutoImpute基于自编码通过学习scRNA-seq数据的固有分布来寻找缺失的值。由于单细胞RNA数据是超高维的,数据降维可降低实验误差与数据噪声的影响,并挖掘数据内部的本质结构特征,便于后续计算以及数据可视化。主流的降维和特征提取算法可以分为基于矩阵分解的、基于图的和基于神经网络的降维算法三大类,其中
18、主流的为主成分分析、t-随机邻域嵌入、均匀流形逼近和投影。主成分分析(PrinCiPaIcomponentsanalysis,PCA)是最常用的线性降维方法。t-随机邻域嵌入(t-distributedstochasticneighborembedding,t-SNE)是一种非线性降维方法,能够根据在邻域图上随机游走的概率分布在数据中找到其结构关系。均匀流形逼近和投影(UniformManifOklAPPrOXimationandProjection,UMAP)是基于k近邻理论使用随机梯度下降优化结果。1.2.2 人工智能与单细胞表观肿瘤模型1.2.2.1 肿瘤中的表观遗传模型染色质结构定义了
19、DNA形式的遗传信息在细胞内的组织状态,其中基因组这种精确紧凑结构的组织极大地影响了基因被激活或沉默的能力。表观遗传学最初被C.H.Waddington23定义为“基因及其产物之间的因果相互作用,从而导致表型的形成”,涉及到理解染色质结构及其对基因功能的影响。Waddington的定义最初是指表观遗传学在胚胎发育中的作用。然而,表观遗传学的定义随着时间的推移已经演变,因为它涉及到各种各样的生物过程。目前对表观遗传学的定义是“研究独立于原始DNA序列变化而发生的基因表达的可遗传变化工这些可遗传的变化大部分是在分化过程中建立的,并在细胞分裂的多个周期中稳定地维持,使细胞在包含相同遗传信息的同时具有
20、不同的身份。这种基因表达模式的遗传性是由表观遗传修饰决定的,包括DNA中胞咯唬碱基的甲基化、组蛋白的翻译后修饰以及核小体沿DNA的定位。这些修饰的补充,统称为表观基因组。如果不能正确维护可遗传的表观遗传标记,可能会导致各种信号通路的不适当激活或抑制,并导致癌症等疾病状态已久表观遗传学领域表明除了大量的基因改变外,人类癌细胞还存在全局表观遗传学异常12叫这些基因遗传和表观遗传的改变在癌症发展的各个阶段相互作用126】。目前癌症的基因起源已被广泛接受,表观遗传改变可能是某些形式癌症的关键初始事件囚。这些发现促使研究人员开始探索表观遗传学在癌症的起始和传播中的作用128】。与基因突变不同的是,表观遗
21、传畸变具有潜在的可逆性,因此可以通过找到表观遗传层面肿瘤的靶点信息,治疗患者,使癌细胞恢复为正常状态。表观遗传畸变具有的可逆性使此类举措具有广阔的前景129】。第二代测序技术的进步,推动了表观遗传学的发展。例如,ChIP-Seq133方法可以绘制组蛋白修饰和转录因子结合的全基因组图谱;利用ATAC-Seq可以测定染色质可及性;使用Hi-C河等方法确定高阶染色质结构;DNA甲基化则可使用RRBSRI、WGBS4或基于阵列的技术来确定。此外,表观基因组也被用于癌症诊断与辅助治疗。为了实现这些目标,我们需要实现自动化决策系统,应用于癌症的临床预防、诊断和治疗中倒Q当前生物表观遗传辅助诊断仍面临许多挑
22、战,尤其是临床环境数据分布广泛、模态多且高度复杂,使得单独调查单个实验-对照数据的传统方法效果有限。机器学习技术能够集成大型和复杂的数据集,推动临床诊断的发展倒,并帮助医生进一步解析临床表观遗传数据RI(图1-1)。ProteomicsTranscriptomicsEpigenomics DataUnsupervised LearningSupervised LearningLearningDiseases / CancerDrug ResponseEpigenome图机器学习在表观遗传的应用网1.2.2.2 人工智能与基于甲基化测序技术的肿瘤表观遗传模型基因甲基化是表观遗传的主要形式之一,同
23、癌症的发生与发展有重要联系。DNA甲基化代表基因组的直接修饰,并调控基因表达。目前几乎所有肿瘤都已发现特异性的基因甲基化标记物。相比正常细胞,癌细胞的基因甲基化水平有显著下降,是癌细胞基因调控失稳的重要原因之一。在正常组织中,细胞通过基因甲基化实现表达调控,当相关基因调控区的CpG岛大量发生甲基化时,便可阻止该基因的表达,实现基因沉默138】。DNA甲基化导致基因沉默的已知机制大致可分为三种:1)DNA甲基化干扰转录因子对DNA元件的识别与结合;2)序列特异性的甲基化DNA结合蛋白与启动子区甲基化CPG岛结合,募集组蛋白去乙酰化酶(HDAC),形成转录抑制复合物,进而阻止转录因子与启动子区靶序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 中国 人工智能 系列 白皮书 药物 发现
链接地址:https://www.desk33.com/p-717930.html