先进含能材料高通量虚拟筛选系统.docx
《先进含能材料高通量虚拟筛选系统.docx》由会员分享,可在线阅读,更多相关《先进含能材料高通量虚拟筛选系统.docx(22页珍藏版)》请在课桌文档上搜索。
1、引言含能材料是一类能够在一定外界刺激下,通过剧烈氧化还原反应释放出巨大能量的特殊反应性物质。自2000多年前中国发明黑火药以来,含能材料为人类的进步和繁荣做出了重大贡献。先进含能材料的能量、感度和热稳定性是最受关注的三个性能。然而,能量、感度和热稳定性之间始终存在着相互矛盾和制约的关系。一般来说,含能材料的高能量总是伴随着机械感度升高和热稳定性降低。因此,发展兼具高能量、低感度和良好热稳定性的新型含能材料仍然是一个巨大挑战。为了指导含能材料的理论设计,人们己经发展出多种经验公式,如用于预测爆轰特性的KamIet-JaCObS公式和用于预测机械感度的硝基电荷方法等。然而,这些经验公式很少能用于实
2、验合成前的含能材料的大规模预筛选,原因是该类公式通常需要进行较为耗时的量子化学计算,而且其泛化能力也难以被确定。长期以来,新型含能材料的发现在很大程度上依赖于科学直觉及反复试错的过程,这种研发模式存在效率低、不确定性高等问题。随着大数据时代的到来,含能材料的研究范式发生了深刻变化。与经验模型相比,机器学习模型通常在准确性、泛化性和处理非线性问题的能力方面表现出优势,因此被广泛应用于材料科学的各个领域。在此,本文展示了一种机器学习辅助的高通量虚拟筛选(HTVS)系统,用于加速发现具有良好能量与安全性平衡的新型含能材料。该HTVS系统将机器学习模型与高通量分子生成相结合,从25112个生成分子中快
3、速筛选出性能优良的目标分子。筛选出的化合物能够表现出类石墨层状晶体堆积结构,这种特定的晶体堆积模式通常表现出更好的能量与安全平衡特性。经过对合成可行性的进一步评估,通过三步反应合成得到了一种性能较好的5,6稠杂环骨架基含能材料一一7,8-二硝基毗唾并1,5司135三嗪-2,4-二胺(本文称为ICM-104)o性能研究表明,含能材料ICM-IO4具有良好的综合性能,包括高能量、低感度和良好的热稳定性等。上述研窕初步证明了所提出的HTVS系统的有效性以及机器学习在设计高性能含能材料方面的巨大潜力。方法(一)数据准备与增强从过去几十年的文献中收集了100o多条含能材料数据,用于训练属性回归模型。该数
4、据集包含具有多种结构的分子,涵盖脂肪族、芳香族、单环和多环化合物(有关详细样本和数据源请参见附录A中的数据集1)。附录A中的图Sl提供了有关数据集的更多特征,如数据分布。在进行模型训练时,将所有数据以80:20的比例随机分为训练数据和测试数据。将训练数据进一步分为训练集和验证集,用于进行五折交叉验证和调整超参数。五折交叉验证是指将验证集划分为5组,每组可用于一次验证,而其余4组用作训练集。最终测试分数是根据在训练过程中未使用的测试数据集计算而得。为了训练分类模型,本研究从剑桥晶体学数据中心(CCDC)获取了365个被标记为“0(表示不具有类石墨层状晶体堆积结构)的样本和22个被标记为(表示具有
5、类石墨层状晶体堆积结构)的样本(见附录A中的数据集2)o显然,现有数据量太小,不适合应用深度学习方法。因此,使用简化分子线性输入规范(SMI1.ES)的枚举技巧进行数据增强,该技巧可以生成多个代表相同分子的不同SMl1.ES字符串。SMl1.ES枚举是一种用于分子深度学习的新型数据增强技术。标记为“0和1的SMI1.ES样本被分别放大了10倍和30倍。数据增强后,总样本量扩大到4000多个。在训练卷积神经网络(CNN)和长短期记忆(1.STM)模型时,保留400个样本作为测试集来评估模型的性能。(二)特征与模型使用RDKit库提取了包括自定义描述符和电拓扑指纹在内的特征(即分子描述符)。属性预
6、测模型通过SC型退earn包中的核岭回归(KRR)算法进行训练。在KRR算法中,预测值(y*)可以表示为,给定一个核函数(k)公式(1)条件下,新样本(x*)与训练样本(x)内积的加权平均()。因此,学习过程中需要使用公式(2)计算系数矩阵(,为的第j个元素),式中X、八4和/分别为样本矩阵、标签矩阵、正则化参数和单位矩阵。使用网格搜索方法和五折交叉验证调整包括核函数在内的超参数。以决定系数R2公式(3),表示标签平均值作为模型二次拟合标准。同时采用平均绝对误差MAE,公式(4)评估模型性能。上述公式中,j和/V分别表示第i个样本和总样本数。N-I(2)(3)y*=fgk(X*,M)i=0平(
7、x,)+咪Yp2-1S(-)!io1(y.-y)N-1MAE=RE卜1.y:|M)分类模型中使用的CNN和1.STM是从Pytorch库中获取的。为了准备输入,从完整数据集包含的全部SMI1.ES提取字典。字典的详细内容如下:N,c,zl,zn,(7)z,+zT,0,o,z,2C,3H,z,4,5zNone(None用于填充)。因此,SMI1.ES字符串被转换为大小为120,23的二维(2D)数组。对于1.STM模型,SMI1.ES的长度限制为120,允许出现的字符与字典的字符相同。此外,CNN包含两个2D卷积层和三个全连接层。2D卷积层的滤波器大小为16和32,而核尺寸均为7。最大池化层的核
8、尺寸为2。全连接层的宽度分别为800、100和2。将整流线性单元(Re1.U)作为激活函数。1.STM的隐藏层尺寸为64,层数为20。对于上述深度学习模型,损失函数均由交叉燧定义,并使用学习率为0.001的Adam优化器来更新权重。选择准确度由公式(5)定义、平衡准确度由公式(6)定义和Fl分数由公式(7)定义作为评估模型性能的指标,其中TP、FP、TNFN分别代表真阳性、假阳性、真阴性和假阴性。为了阐明采用深度学习算法的必要性,以基于描述符的K最近邻(KNN)作为基准进行测试。然而,SMI1.ES枚举技巧并未被用于训练KNN模型,原因是由代表同一分子的不同SMI1.ES所提取的描述符几乎完全
9、相同。N1Accuracy=-(yl=y)tpfn*tnTFIscore-2PrecisionRecallPrecision+RecallPrecision=为了对形成类石墨层状堆积结构的可能性进行评估,在预测过程也应用SMl1.ES枚举技巧。对于代表同一分子的20个SMI1.ES,经预测后可以得到类石墨层状堆积结构的比例(P)公式(10)上述过程重复10次,以缓解由SMI1.ES枚举的随机性造成的影响,并将P之和作为最终得分式(三)oP=笺2Mw0i(10)Score=EPli-1()制备及表征尽管本文涉及的化合物对外部机械刺激(如撞击和摩擦)的感度较低,但合成过程中使用了强腐蚀性浓硫酸。因
10、此,建议在实验过程中使用防护手套、外套、面罩和防爆挡板等安全设备。1.4-硝基-1”-毗喋-3,5-二胺盐酸盐的制备根据先前报道的路线制备4-硝基-IH-毗哇-3,5-二胺。将浓盐酸(3m1.)加入4-硝基-IH-Ittll-3,5-二胺(3mmol,0.429g)的甲醇(5m1.)悬浮液中。搅拌10min后,过滤得到淡黄色固体,然后用乙酸乙酯(EtoAC)对其进行洗涤,得到4-硝基-1”-哦喋-3,5-二胺盐酸盐(产率为80%)。2.8硝基毗嗖并口Sanl,3,5三嗪-2,4,7三胺的制备该中间体是根据先前报道的路线略作修改后制备的。首先,将4-硝基-IH-毗唾-3,5-二胺盐酸盐(3mmo
11、lz0.54g)悬浮在无水乙醇(Hm1.)中。然后,在悬浮液中加入双氟胺(4mmol,0.33g)t将上述混合体系在80下回流6h。在回流过程中,溶液中逐渐出现橙色固体。将橙色固体过滤并在80。C下用水重结晶,得到黄色固体(8-硝基毗嘤并l,5-135三嗪-2,4,7-三胺;产率为60%)。378二硝基毗嗖并l,5-a11l,3,5三嗪-2,4-二胺(ICM-104)的制备在冰水浴中,将8硝基毗哇并1.5o135三嗪-2,4,7-三胺(3mmol,0.63g)分批加入浓硫酸(6m1.)中,然后向溶液中滴加30%过氧化氢水溶液(2.5m1.)。在室温搅拌3h后,使用碎冰淬灭反应,并使用乙酸乙酯萃
12、取溶液。随后使用旋转蒸发仪除去乙酸乙酯,收集淡黄色固体即为目标化合物7,8-二硝基毗嗖并1.5-G:135三嗪-2,4-二胺(ICM-104);产率为42%。目标化合物的核磁共振(NMR)数据如下所示。1HNMR(DMSo-dd400MHz):8.81ppm(s,1H,NH2),8.56ppm(s,IH1NH2),8.04ppm(sz1H,NH2),7.77ppm(s,1H,NH2);13CNMR(DMSO-d6,100MHz):162.41ppm,153.61ppm,150.44ppmz147.42ppm,109.47ppm(见附录A中的图Sl2)。高分辨率电喷雾电离质谱(ESI-HRMS)
13、数据如下所示。ESl-HRMS:m/zM-H卜计算值为239.0283,测试值为239.0282。红外光谱数据(IR;KBrzcm1):3483.42,3431.90,3333.44,3205.61,1684.94,1633.17,1605.24,1565.96,1523.60,1491.91,1453.41,1396.89,1340.13,1291.72z1242.11,1220.57z1091.12,983.45,881.85,851.93,807.86z784.96,775.28,728.80,714.26,600.36z550.32o计算元素分析数值为:C25.01%、H1.68%和N
14、46.66%;实验元素分析结果为:C24.67%H1.82%和N46.40%。1H和13CNMR数据通过Bruker(USA)AvanceNeo400NMR核磁共振光谱仪收集,频率分别为400MHz和100MHZ。使用具有电喷雾电离(ESI)的Shimadzu1.CMS-IT-ToFTM质谱仪收集高分辨率质谱(HRMS)。使用标准BAM落锤和BAM摩擦测试仪进行撞击和摩擦感度测量。化合物的生成焙由燃烧热计算得到,燃烧热通过氧弹热量仪测量。使用EXPlo5(6.02版)软件计算标准爆轰性能。三、结果与讨论(一)HTVS系统HTVS系统的框架和组件如图1所示,具体功能及运行流程如图1(八)所示。首
15、先,高通量分子生成模块可以根据输入母环及取代基迭代生成大量含能分子图1(b)o然后,将生成的分子导入属性预测器,进行快速准确的属性计算。属性预测器包含4个回归模型,以相同的复合分子描述符集作为输入,对密度、爆度、爆压和分解温度进行预测图1(C)o借助该属性预测器,可以根据预测的属性筛选具有较高能量、较低感度和良好热稳定性的潜在含能分子。然后将初步筛选出的、具有理想性能的分子送入晶体结构分类器,以进一步评估形成类石墨层状晶体结构的可能性。评估合成的可行性后,选择具有良好性能和较高概率形成类石墨层状晶体结构的分子进行实验合成和表征。该HTVS系统可以帮助研究人员通过分子生成和筛选过程定制含能材料,
16、避免花费大量时间和精力进行实验试错。SMI1.ESMachinelearning-assistedHTVSEvaluation&experimentIOlOlOloIoITConvolutionlayersFuBonnectioriMn图1.HTVS系统的框架和组件。(八)机器学习辅助HTVS框架:(b)使用启发式枚举的分子生成示意图;(C)属性模型和类石黑层状堆积结构分类模型训练示意图;(d)CNN的。ne-hot输入编码:(e)CNN结构。(二)特征集和属性模型除了数据,特征(即分子描述符)是决定机器学习模型准确性的另一个重要因素。本研究采用的复合特征集(CDS)由两部分组成。第一部分为从
17、电拓扑态(E-State)指纹谱中抽取的与碳(C)、氢(三)、氧(O)、氮(N)及卤素相关的指纹,该指纹谱已被广泛用于构建不同的模型来预测分子特性。另外,领域知识可以降低学习复杂性并提高特定任务的准确性。因此,本研究定义了一个自定义描述符集,其中包含另外的29个分子描述符(见附录A中的表S2)。此自定义描述符集增强了对分子形状和组成如最佳拟合平面(PBF)和氧平衡(OB)的描述,这将有助于对含能材料性质的学习。使用热力图可视化自定义描述符与密度数据的相关性图2(八),结果表明大多数自定义描述符没有显著相关性,这对于训练模型是有利的。ZadN,CHOO5Ew三6-*jefuj.?VSd二1.1.
18、Bd.Zc0cZciji.ejeuo亘UBdwM(ZoNg2UoN18zcNoNuZON2ZoNNU-075oxc三ZHNFOPUOqHF:Iocooao-61002340056Trainingexamples-02-0100102Deviation(gcm3)合方BQQJd121416182022242628Observation(gcm3)4208622z1.1.759coay?aW)图2.性能预测模型的特征分布和模型评估。(八)自定义描述符集及其在密度数据上的特征分布热力图;(b)特征的PCA分析及密度数据上主要信息成分的散点图;(C)密度数据训练集(绿色)和测试集(紫色)的散点图和误差
19、分布,其中红色(橙色)虚线是训练(测试)数据偏差的正态分布曲线:(d)密度训练模型的学习曲线(红色为训练曲线,绿色为交叉验证曲线):(e)4个训练模型的测试分数(Dv:爆速;P:爆压;d:分解温度)。通过主成分分析(PCA)法分析CDS在密度数据中捕获基础模型的能力。当将原始特征组合成45个主成分时,累积方差达到0.993图2(b),左。此外,通过对主要成分(PC14和PC2)信息最丰富投影进行可视化图2(b),可以看到不同密度的样本分布相对集中,并观察到明显的颜色梯度,这意味着这些特征能够有效地刻画密度数据的潜在模型。在使用KRR算法训练模型后,分别通过比较训练集和测试集上的观察值和预测值来
20、验证模型预测密度的性能图2(c)o结果发现,观察值和预测值之间存在显著的一致性图2(c),并且它们之间的偏差符合正态分布图2(c),右。在学习曲线中,随着训练样本的增加,训练曲线(红色)和交叉验证曲线(绿色)都逐渐接近相同的渐近线图2(d),说明本文的模型被训练得很好(即没有观察到过拟合或欠拟合)。测试数据集的决定系数(R2)和MAE分别为0.93gcm-3和0.042gcm-3图2(e)。密度模型的高精度可能源于大量的数据和合理的特征化方法,可以在一定程度上捕捉分子和晶体的特征。以相同的复合分子描述符集作为输入,对爆速(入)、爆压(P)和分解温度(小)的预测模型进行训练。如图2(e)所示,D
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 先进 材料 通量 虚拟 筛选 系统

链接地址:https://www.desk33.com/p-1411296.html