2023数据挖掘方法在女性尿失禁预测中应用的研究进展.docx
2023数据挖掘方法在女性尿失禁预测中应用的研究进展摘要中国女性尿失禁的发病率为21.2/1000人年,严重困扰患者的身心健康和社会交往,降低了生命质量。近年来,数据挖掘已广泛应用于医学实践中,使用数据挖掘方法有望增加对疾病预测的准确性,以达到良好的诊治效果。应用数据挖掘方法构建预测模型可以预测女性尿失禁的发生风险,有助于识别高危人群进行早期预防。不同数据挖掘方法预测女性尿失禁的性能优劣尚需进一步研究。本文梳理了近年数据挖掘方法(包括logistic回归、多层感知器神经网络和人工神经网络、决策树算法、随机森林算法等)在预测女性尿失禁中应用的研究进展;对比了多种数据挖掘方法建立的预测模型的预测效能,发现logistic回归、多层感知器神经网络、决策树算法、支持向量机建立的尿失禁预测模型的预测效果良好;本文也对当前研究存在的不足进行了总结(如:样本量小、黑箱问题等),可为进一步的相关研究及应用提供借鉴。尿失禁是不自主地经尿道漏出尿液的尿控失常现象1,常见于成年女性2o研究显示,中国女性尿失禁及其亚型,包括压力性尿失禁(stressurinaryincontinence,SUI)、急迫性尿失禁(urgencyurinaryincontinence,UUI)和混合性尿失禁,其发病率分别为21.2/1000人年、13.1/1000人年、3.0/1OOo人年、5.1/1OOO人年31尿失禁虽为非致命疾病,但对患者的身心健康和社会交往等可产生严重困扰4,因此,识别高危人群,对尿失禁的发病进彳亍预测,以进行早期预防尤为重要。数据挖掘(datamining,DM)已广泛应用于医学实践中。在DM过程中,合理应用信息技术,存储并提取医疗记录、随访数据,从而结合数据,寻找疾病的危险因素及规律,增加对疾病预测的准确性,能达到良好的诊治效果5ODM已开始逐步应用于女性尿失禁的预测,有望提高尿失禁预测的准确性,本文将探讨DM在女性尿失禁预测中应用的现状、问题和前景。一、DM的概念DM是使用各种方法提取隐藏在海量、不完整、有噪声、模糊和随机的实际应用数据中有价值、可理解的信息和知识的过程6ODM方法是统计方法和机器学习(machinelearningzML)方法的结合。人工智能(artificialintelligence,AI)是由计算机模拟人的思维模式,完成传统意义上的依赖人的智力才能进行的复杂工作,涉及计算机科学、统计学等多学科7oML是Al和DM的技术支撑。DM在医学相关领域应用的场景之一即是智慧医疗以AI为核心、大数据为基础的新医疗体系80二、各种DM方法在尿失禁预测中应用的现状1 .logistic回归国内外普遍应用于建立疾病预测模型,是应用于尿失禁预测研究中最常用的方法。logistic回归量化了二分类响应变量与1个或多个分类或连续自变量之间的关系。2014年的一项研究采用logistic回归构建并验证了用于评估盆腔器官脱垂(pelvicorganprolapse,POP)手术后新发SUI的预测模型9,该模型包括7个风险因素,模型预测效果优于术前负荷试验、专家预测和术前减少咳嗽负荷试验,并创建了1个在线计算器,供临床使用;2019、2021年各有一项研究分别对该模型进行了外部验证、对SUI在线计算器的性能进行了评估10-11z经外部验证,该模型可用于预测POP手术后新发SUI,而后一项研究对计划行微创阴道顶端悬吊手术的妇女使用SUI在线计算器预测新发SUI,但结果受到很大限制,尚需改进。韩国的一项回顾性队列研究对接受POP手术的1142例患者用logistic回归模型12预测SUI(与咳嗽、打喷嚏或大笑有关的漏尿的影响程度为中度或重度),该模型包含6个预测因素,包括年龄、糖尿病、主观尿失禁即根据盆底不适调查表简表(Pelvicfloordistressinventory-shortform20,PFDI-20)评估患者有尿急、漏尿症状13口脱垂减少压力测试结果、脱垂手术类型和尿道中段悬吊带术,预测SUl的曲线下面积(areaundercurve,AUC)为0.74,优于POP和SUI的伴随手术和尿动力学调CUPIDO膜型14IAUC为0.63,P=0.014XJelovsek等14从英国和新西兰分娩的妇女(n=3763)以及来自瑞典医学出生登记处的妇女(n=4991)两个队列中收集产科变量,为了进行时间验证,将每个队列按时间分段,以在队列时间段的前半段妇女的数据作为训练数据集,构建logistic回归模型,后半段的数据用于时间验证;该研究建立的所有模型均被合并到1个基于网络的综合计算器中,当输入一整套预测因素时,所有盆底疾病(包括尿失禁)的结果均会呈现出来;当尿失禁的困扰症状(每周或每天不自主漏尿3次)的风险率为5%60%时英国和新西兰队列的模型预测是准确的,在风险率为5%80%时瑞典队列的模型预测是准确的。在大多数的模型中,分娩方式、分娩次数和盆底疾病的家族史是最具影响力的因素。妊娠前任何严重程度的尿失禁是预测产后12年针对尿失禁、PoP或大便失禁进行治疗的重要的影响因素。对初产妇随访20年,阴道分娩与其20年后尿失禁的发生风险增加显著相关,但该研究缺少外部验证14o对1600例初产妇构建产后SUI预测logistic回归模型,该预测模型纳入的危险因素包括年龄、孕前体重指数(bodymassindex,BMI新生儿出生体重、阴道分娩、第二产程时间,其AUC为0.888,该模型的敏感度为84.8%特异度为77.5%151向吉翠16区1684例产妇采用IOgiStiC回归模型对影响产后SUI的因素进行分析,并根据结果构建预测模型,将新生儿出生体重、新生儿双顶径、阴道分娩、第二产程时间纳入模型,该模型预测产后SUI的敏感度为74.69%、特异度为85.78%、准确度为64.18%多数研究中,logistic回归预测模型的预测效果良好zlogistic回归模型的优势在于简单、训练速度快、可解释性好、不限定自变量类型;但样本量过小时,预测的方程不稳定,结果无法解释;会出现过度拟合;对变量交互作用和共线性的处理方法不够精确。2 .多层感知器神经网络、人工神经网络预测模型人工神经网络(artificialneuralnetworkfANN)是一种模拟神经元系统结构和功能的非参数ML方法171ANN由输入层、隐藏层及输出层构成。ANN中间神经元的突触权重,用于存储训练阶段获得的知识。ANN通过配对的输入、输出数据集进行学习;随着学习的进行,误差减小,直至达到最小值,这种训练良好的网络可对未知数据进行结果预测18I)使用多层感知器(multilayerperceptron,MLP)方法建立的尿失禁预测模型的预测准确性很高。国外已有研究证明,ANN预测模型在预测尿失禁风险方面的预测性能优于多重线性回归(multiplelinearregression,MLR)模型。意大利的一项横断面研究,纳入了1344例有下尿路症状(lowerurinarytractsymptoms,LUTS)并有POP的妇女,收集有关的基线特征、LUTS和体格检查的数据,采用MLR和ANN来设计预测模型18,并对两种预测模型的预测效果进行比较,对于ANN的设计,通过随机数生成器将妇女按8:2的比例随机分配到训练集和测试集;两个预测模型均表明,年龄、BMI、盆腔器官脱垂定量分度法(POP-Q)I度和尿失禁手术史是UUI和SUI的预测因素而ANN模型的预测比MLR模型更准确(P<0.05X该研究的局限性是仅对单一中心的妇女进行了研究,模型的外部效度不佳。王元毅等19对560例参加流行病学调查的妇女进行研究,通过荟萃分析得到SUI的预测变量,并建立MLP神经网络预测模型,训练集、测试集、验证集的样本占比分别为70%、15%、15%;通过验证,该模型的预测准确度为85.33%,AUC和Gini系数均接近1该模型预测SUI的效果良好,年龄和BMI是最重要的预测因素。该研究通过荟萃分析确定的预测变量较全面、可信、普适,较符合我国女性的基本情况;但研究纳入的样本量较小,缺少前瞻性研究的验证。ANN(包括MLP神经网络)的优势是不需要提前考虑因变量与自变量间的关系,具有自学习和自适应能力;能自动逼近正确的模型结构;适用于解决内部机制复杂的问题。其劣势在于需要大量、有代表性的、典型样本,学习过程不可见,输出结果可解释性差。3 .决策树算法决策树算法是基于多个协变量的分类系统或开发目标变量的预测算法。决策树包含根节点、内部节点、叶节点;内部节点的测试属性通常根据信息增益或其他指标决定,分支为测试输出;叶节点代表类别。使用训练集建立决策树模型,并用验证集决定实现最优模型所需的决策树的适当大小20o近年来,国内已有较多研究采用决策树算法对尿失禁发生风险进行预测。黄洁贞等21L黎佩莹等22L吕香霖等23均使用决策树算法发现,盆底肌功能(肌力强度)对SUI发生的预测作用显著、预测价值较高。这3项研究均存在样本量小、代表性不足的局限性,构建的预测模型尚缺乏进一步的研究和验证。一项回顾性队列研究招募172例经产妇,采用单变量和多变量分析评估SUI的潜在危险因素,并使用决策树算法来评估不同亚组(首次分娩后有无SUL有无妊娠期糖尿病和年龄是否35岁)中SUl的发生率,决策树算法的结果显示,对于经产妇,首次分娩后SUL妊娠期糖尿病会增加第2次分娩后1年SUI的发生风险24Io翟巾帼等25对707例初产妇进行回顾性调查,收集危险因素、人口社会学、尿失禁相关量表的数据,采用决策树算法将数据集按照7:3的比例分为模型构建集和模型训练集,并对模型进行内部交叉验证及外部验证;模型构建组预测尿失禁的敏感度、准确度、AUC较高,分别为84.8%、76.7%、0.767z但特异度偏低、仅为58.1%,交叉验证的风险值为29.8%,模型训|练集的AUC为0.602(P<0.05X焦子珊等26收集了505例产后68周产妇的基本资料、盆底肌电值,并填写产后SUI调查问卷,建立产后SUI的决策树C5.0算法(通过分散的数据集来构建决策树,并且数据集中的值使增益率最大化,是应用于大数据集的分类算法27)预测模型以及logistic回归预测模型,将数据集按照7:3的比例建立训练集及测试集并分别进行匕瞰,模型之间的比较采用2检验;结果显示,在训练集中,决策树C5.0算法与logistic回归预测模型的准确度分别为98.9%、85.6%敏感度分别为94.7%、48.7%,特异度分别为100.0%、95.4%,阳性预测值分另!J为100.0%,74.0%,阴性预测值分另1J为98.6%、87.4%,约登指数分另U为94.7%,44.1%,AUC分别为0.974、0.721;在测试集中,决策树C5.0算法与和logistic回归预测模型的准确度分别为87.6%、82.8%,敏感度分别为78.6%、46.4%,特异度分别为89.7%、91.5%,阳性预测值分别为64.7%、56.5%,阴性预测值分别为94.6%.87.7%,约登指数分别为68.3%、37.9%,AUC分别为0.842、0.689;决策树C5.0算法预测模型在训练集和测试集中的准确度、敏感度、阳性预测值、阴性预测值、约登指数及AUC均高于logistic回归预测模型。决策树C5.0算法预测模型的预测性能更佳。该研究对预测模型的探索和对比仍然不够全面,样本代表性不足。总体而言,决策树算法模型对产后尿失禁的预测性能良好,预测效果优于logistic回归模型但部分研究的决策树模型特异度略低。决策树是一个白箱模型,易于理解和解释,其结果的呈现直观28o决策树对研究对象的分类或预测更精准,其模型对自变量数据的选择较为广泛。决策树树形图越深,模型对数据总体规律的代表性就越差29,可出现过度拟合问题。4 .随机森林算法目前,应用随机森林(randomforest,RF)算法对尿失禁进行预测的研究较少。RF算法是基于决策树的集成学习算法,其原理为:(1)在原始数据中,用自助法(bootstrap)有放回地抽取n个样本建立n棵决策树;(2)在每个树节点处从所有变量中随机抽取m个变量子集,再从m个变量中选择最具有分类能力的变量又擞据进行分类;(3)未抽中的原始数据构成袋外数据,以评价每棵决策树的性能。分类的准确度用袋夕M古计误差率评估。综合生成的n棵决策树组成1个RF,投票决定数据的最优分类3031o庞海玉等32对24985例参与流行病学调查、基线无尿失禁且随访数据完整的妇女进行研究,纳入经单因素分析选出的15个变量,使用新发尿失禁与未发生尿失禁1:1欠采样数据(n=3514)l将数据按照7:3的比例随机分为训练集和测试集,建立RF算法模型,在训练集筛选尿失禁发病的危险因素,根据重要性对危险因素排序,并在测试集中验证;RF算法模型的分类准确度为64.3%,敏感度为64.2%,特异度为64.4%预测尿失禁发病的重要的5个影响因素依次为年龄、分娩次数、分娩方式、BML绝经状态。该研究样本量大,人群覆盖范围广,对中国成年女性尿失禁发病的危险因素按重要性进行了排序;但模型预测的准确度不高,无法评估尿失禁的严重程度,欠采样技术损失了样本信息。RF算法善于处理高维度的数据,其应用bootstrap技术计算Gini系数,有助于理解不同的特征对分类结果的影响程度。RF算法不易发生过度拟合33-34;其提高了模型的预测能力,但可解释性不佳3505.多种DM方法建立尿失禁预测模型的对比国内外各有一项研究应用多种DM方法建立尿失禁预测模型并进行了对比36-37,其中国内的研究发现logistic回归模型和支持向量机(supportvectormachines,SVM)模型的预测效果较好370西班牙的一项研究收集了93例分娩产妇的信息,采用高斯朴素贝叶斯(GaussiannaiveBayes,GNB补集朴素贝叶斯、K最近邻(K-nearestneighbor,KNN)和决策树4种ML技术,使用过采样技术,评估对预测产后尿失禁最有影响的变量,并对产后尿失禁进行预测360GNB指假定样本每个特征维度的条件概率均服从高斯分布,进而再根据贝叶斯公式计算得到新样本在某个特征分布下其属于各个类别的后验概率,最后通过极大化后验概率来确定样本的所属类别。补集朴素贝叶斯是对每个类别计算数据不属于该类别的概率,再选择获得的概率的最小值,最后选择这个类别非该元素所属的类别的最低概率。KNN中输入数据的类别是通过考虑该数据与每个类别的其他元素之间的距离来计算的。最终结果表明,对于发生尿失禁、尿失禁频率、尿失禁强度、发生SUI,最准确的预测模型的准确度分别为70%、77%、71%、93%这项研究表明,在预测与产后尿失禁相关的问题时,外在变量更重要,外在变量包括年龄、身高、体重、BML妊娠期体重增加量、孕前参加的体育活动及其频率、对象的国际体力5舌动问卷(internationalphysicalactivityquestionnaires,IPAQ)评分、妊娠期间是否散步、是否进行力量训练、是否进行普拉提训练、是否进行水中健身、进行体育活动的次数等。该研究的主要局限性是样本量小,且数据集是在非随机对照试验后获得的。王涛和牛晓宇37根据13万余例产后人群及盆底功能障碍性疾病患者人群在盆底大数据云平台中的前期数据的演算结果,初步探索了SUI风险预警模型的建立方案,第1批小样本量数据(SU1100例,对照组25000例)对30个变量进行了分析,使用logistic回归、SVMxGNBxRF、梯度提升法(gradientboostingmachine,GBM)、自适应增强(adaptiveboosting,ADAMLP等DM方法建立预测模型,将数据集按7:3划分为训I练集和测试集,使用训练集训练模型,使用测试集评估模型。SVM旨在多维空间中找到一个能将数据集分成两类或多个类别的最优平面,该平面应使各组中距离最近的点的间距尽可能大380GBM通过顺序拟合弱分类器的加性扩展来构建预测模型390ADA指为训练数据分配相等的初始权重进行训练,根据预测结果将高权重分配给错误预测的样本、低权重分配给正确预测的样本,下一步训练侧重于错误预测的样本,不断迭代两组的权重,最终使得若干弱分类器组成的强分类器误差达到最小400最终结果显示zlogistic回归模型(准确度86.6%、敏感度84.3%、特异度86.6%、AUC为0.927厢SVM模型准确度89.6%、敏感度80.6%、特异度89.7%、AUC为0.933)的预测效果较好。以上两项研究,均采用多种DM方法建立尿失禁(包括SUI)的风险预测模型,西班牙的研究采用的ML方法算法简单、训练速度较快;国内的研究采用的DM算法部分为集成学习算法,算法较为复杂。三、小结与展望目前,国内外DM在尿失禁预测中的研究内容主要是建立产后SUI的风险预测模型。国外的多数研究应用logistic回归方法构建尿失禁发生风险预测模型,而应用其他DM方法的研究较少;少数研究对采用不同DM方法建立的尿失禁预测模型的预测效果进行了对比。国内外的多数研究发现,logistic回归、MLP、决策树算法、SVM建立的尿失禁预测模型的预测效果良好。止匕外,DM在尿失禁预测上还存在一些问题。(1)目前的多数研究中,用于构建预测模型的样本量小,且预测模型的准确度、敏感度和特异度仍有待提高;(2)部分DM方法构建的模型是黑箱模型,如ANN、RF、SVM等,与logistic回归模型的可解释性较强相比,其他模型的可解释性较差。总之,应用DM方法构建的尿失禁预测模型能较准确地预测女性尿失禁的发生,有助于早期识别高危人群。女性尿失禁的诱因繁多、发病率高,严重影响患者的生命质量,因此,应用大数据的DM并进行预测模型的构建和模型的验证,对早期高危人群进行预防尤显重要。未来可以考虑对尚未应用于尿失禁预测模型建立的DM方法进行相关研究,尤其是可解释性ML方法,并对各模型的预测性能进行比较,以选择最佳模型。