最新肿瘤大数据与真实世界研究中国专家共识(完整版).docx
《最新肿瘤大数据与真实世界研究中国专家共识(完整版).docx》由会员分享,可在线阅读,更多相关《最新肿瘤大数据与真实世界研究中国专家共识(完整版).docx(33页珍藏版)》请在课桌文档上搜索。
1、最新肿瘤大数据与真实世界研究中国专家共识(完整版)摘要肿瘤是需要高度重视的公共卫生问题及社会问题。中国肿瘤患者不仅数量众多,而且在病因、流行病学、疾病谱、治疗方式等方面与西方国家存在较大差异。因此,中国肿瘤相关数据具有自己的特点,如果完全参照西方国家数据,则不能正确反映中国肿瘤防治的真实现状。若能整合、处理、分析中国数据,并在特有病因、发病率、药物敏感性、预后等方面找到规律,将对制定卫生政策、医学研究、疾病预防等起到重大作用。中国抗癌协会肿瘤大数据与真实世界研究专业委员会组织多学科专家,结合国内外文献和临床实践,经过反复讨论修改,基于肿瘤大数据与真实世界研究的背景、分析与管理、方向规划与操作流
2、程、基本设计、质量控制标准、证据级别分类、数据安全与隐私标准等方面,最终形成肿瘤大数据与真实世界研究中国专家共识(2022版),旨在发挥中国肿瘤大数据的优势,开展高质量的真实世界研究,更好地推进中国肿瘤防治工作。【关键词】肿瘤;大数据;真实世界研究;专家共识一.肿瘤大数据与真实世界研究背景近年来,随着人工智能不断发展,数据处理手段不断丰富,医疗机构逐渐积累了总量庞大的医疗数据。电子病历是信息技术发展的重要产物,是医疗数据的主要来源。中国国家癌症中心汇集中国各级肿瘤医院的健康信息系统数据,逐步开展数据规范化治理,标准化存储结构和术语编码,使高质量的大规模真实世界研究有了发展的土壤。1.肿瘤大数据
3、与真实世界研究定义:真实世界研究是指针对预设的临床问题,在真实世界环境下收集与研究对象健康和疾病有关的数据(真实世界数据)或基于这些数据衍生的汇总数据,通过分析,获得药物或相关器械使用情况及潜在获益-风险的临床证据(真实世界证据)的研究过程。真实世界研究可以是观察性研究,也可以是干预性研究。与传统随机对照试验(randomizedcontrolledtrial,RCT)不同,真实世界研究的数据来自真实临床场景,证据外推性好,可用数据量大,研究易于开展,成本相对较低,可帮助研究者发现临床实际情况与理想ReT研究之间的差距。真实世界研究数据来源广泛多样,电子健康档案、移动终端、社交媒体、付费账单、
4、调查问卷等都可以是真实世界数据的来源。抗肿瘤新药和治疗手段层出不穷,但实际应用疗效仍有待考证。虽然每年均有多种用药规范和诊疗指南出台,但并不能覆盖所有患者群体。此外,由于肿瘤的复杂性、异质性,临床实际情况与RCT研究所设定的人群往往有较大差异,RCT研究结果无法完全外推,也不适用于所有临床实际情况。肿瘤治疗经历了漫长的发展历史,从经验医学时代到循证医学时代,临床医学范式也在不断变迁。现代信息科学和治疗技术迅速发展,未来的医学证据模式也将随着真实世界研究和大数据的发展而产生巨大变革。2.国内外真实世界研究现状:20世纪70年代以来,监管部门一直使用真实世界证据来批准罕见疾病的新治疗方案。2016
5、年12月,美国食品药品监督局(FoodandDrugAdministration,FDA)通过的21世纪治愈法案标志着真实世界研究走上更大舞台,允许利用真实世界证据取代传统临床试验进行扩大适应证的批准。美国FDA随后又于2017年8月、2018年7月、2018年12月、2019年9月先后发布了采用真实世界证据支持医疗器械的法规决策、临床研究中使用电子健康档案数据指南、真实世界证据方案框架、使用真实世界数据和真实世界证据向FDA递交药物和生物制品资料,进一步完善了政策体系。同时,欧盟药品管理局、日本药品和医疗器械管理局也在多个层面体现对真实世界研究用于药品研发和监管决策的关注和重视。尽管我国真实
6、世界研究尚处于起步阶段,但发展速度快,政府重视程度高,国家药品监督管理局2020年连续发布真实世界证据支持药物研发与审评的指导原则(试行)、真实世界证据支持儿童药物研发与审评的技术指导原则(征求意见稿)、用于产生真实世界证据的真实世界数据指导原则(征求意见稿)、真实世界数据用于医疗器械临床评价技术指导原则(征求意见稿)等多项指导原则,规定了真实世界证据支持药物研发和监管决策等情形,为国内真实世界研究提供具体指导意见。2019年6月,国家药品监督管理局与海南省政府联合启动临床真实世界数据应用试点工作,具有示范导向作用。真实世界研究登记数量不断增长,截至2020年8月,全球登记真实世界研究共212
7、2项,1020项(48.07%)处于活跃状态,其中中国是真实世界研究申报最为活跃的地区。真实世界研究发展迅速,年发文量逐年稳步增长。19832018年百万级医疗大数据真实世界研究共发文83篇,多数文献集中于近5年,主要研究方向包括增进对疾病或状态的认识、疾病分布情况、药物安全监测、疾病识别、卫生经济学等。3.真实世界研究挑战与机遇:真实世界研究存在许多挑战。在研究设计方面,需选取具有切实临床意义的研究问题,并调用适配度高、样本量足够大的数据集。研究开展方面,真实临床场景中存在复杂多样且难以控制的偏倚,需预先核实数据完整性和准确性,此外,开展跨区域合作时,还需明确数据所有权、访问权限、采集和清洗
8、标准等。基础架构方面,合理部署信息化基础设施是大数据应用的前提,需标准化规范采集数据,不断更新迭代人工智能等方法学逻辑。伦理及安全问题也不容忽视,在医疗大数据应用中,需警惕和重视信息安全与隐私保护,最终目标是在个体隐私保护和数据价值挖掘之间实现平衡。尽管真实世界研究仍为后起之秀,面临诸多挑战,但近几年,支持政策陆续出台,电子病历的管理日益标准化,学界日益关注,中国真实世界研究相关文章发表量逐年上涨,在科学技术和政策的双重推动下,医疗大数据将进入快速发展新时代。二、肿瘤大数据分析与管理(一)可行性评估1 .数据来源可行性评估(1)利用现有数据:现有数据主要包含医疗机构产生的电子病历(electr
9、onicmedicalrecord,EMR)和随访信息,分子生物学检测产生的组学信息,公共部门的电子健康档案、医保数据、出生死亡登记、公共健康监测数据以及区域化医疗数据等,分为可直接利用的结构化数据和需要进行数据提取的非结构化数据。这些数据体量非常庞大,但由于数据的采集并非为某特定研究目的而设计,故数据分散、异质性高,完整性和准确性也有待验证。主动收集的数据,如临床试验的补充数据、实效性临床试验(pragmaticrandomizedclinicaltrialPRCT)、注册登记研究、健康调查、公共健康监测等来源的数据,在收集之前已明确具体研究目的和数据收集目标,数据更加规范、标准、完整、准确
10、。对于特定科研方向的真实世界研究,需要对数据进行可行性评估,主要包括所需数据的覆盖程度以及数据可关联性、准确性、可靠性、完整性和可溯源性等。首先,基于目标研究方向的临床问题确定主要变量,如待研究的干预措施、主要结局、人口学特征、既往病史、实验室信息管理系统(laboratoryinformationmanagementsystem,LIS)和影像学数据等关键变量是否存在;其次,抽样评估或对全数据集评估主要研究变量及其他相关变量的数据缺失情况。(2)获得新增数据:基于待研究的临床科研问题,对现有数据完整度、覆盖度进行评估后,可以进行缺失数据补充。如关键变量整体信息缺失,可通过与数据生产系统重新对
11、接,关联研究人群,补充特定字段;预后信息缺失,可通过医疗机构进行后续随访补充;缺失程度低的变量,可在后续分析步骤通过统计方法进行弥补与校正。2 .研究主题可行性评估(1)确定研究主题:真实世界研究首先需要确定研究对象,即选择暴露组、对照组及设定纳入排除标准。需要评估是否有明确的暴露定义,如有无干预方案、暴露的模式或顺序等。对照组的基本要求是尽可能保证与暴露组具有可比性,即对照人群除未暴露或低水平暴露于研究因素外,其他各种可能影响研究结果的因素或人群特征(年龄、性别、民族、职业、文化程度等)都应尽可能与暴露组分布一致,可通过基线数据分析评估两组均衡性。病例对照比例一般为1:1到1:4不等,需要评
12、估对照组样本量是否充足,应优先选择内对照,次选外对照或总人口对照。(2)选择协变量:协变量的选择应首先综合现有诊疗指南和既往研究结果,对所有观测到的可能与结局相关的基线变量进行初步选择,形成变量集合,再通过数据驱动的变量间相关关系学习,结合专业经验知识及已知危险因素进行筛选,确定纳入分析模型的协变量。3 .数据获取与存储可行性评估(1)数据获取:数据收集前,需明确数据所有权,在获得授权后,通过特定访问方式(特定网络连接方式、指定端口)或加密传输介质进行数据获取,确认同时采集到目标数据的数据结构说明以及编码转化逻辑,保证数据可及性及可操作性。(2)数据存储:采用Hadoop分布式架构与关系型数据
13、库相结合的方式存储,支持PB级数据量快速处理、大规模数据秒级检索,采用安全套接字层协议加密,分离密钥和加密数据,使用过滤器和数据备份等方式,构建安全存储策略。(二)数据质量控制1 .数据清洗:原始数据具有多源异构特性,针对特定临床科研问题,需要进行数据清洗来提高数据可用性。首先制定标准模型,建立统一的数据标准,覆盖研究涉及的变量,将原始数据以标准模型表结构入库,完成字段对照。将原始数据字段按照标准模型字段项进行截取、提取和数据类型转化,非空项为空时,需按照模型中的默认值进行补充。利用数据来源方提供的字典表,将各数据表中的编码转换为预设的标准编码,对数据进行全字段去重,排除重复数据。最后核查数据
14、量,进入标准模型的数据量应与原始数据量保持一致。对于缺失数据,在能够溯源的情况下,尽可能通过数据补充采集进行完善;对于无法溯源的情况,需要明确缺失值的分布情况,判断其分布是否随机,如果为随机,可以通过统计方法进行插补,如有偏倚,则考虑后期分层分析。2 .偏倚和混杂因素控制:研究中的系统误差主要包括信息偏倚、选择偏倚和混杂偏倚。其中,信息偏倚主要来自资料收集和解释过程中的错误信息,可以通过加强研究设计阶段对各种变量的规范定义、标准化数据转换规则、对变量值域进行明确定义等方法进行控制。选择偏倚可以通过严格掌握研究对象的纳入排除标准来控制,减少因特定信息缺失而排除的样本数据对实验结果的影响,同时确保
15、对照组和病例组的基线可比性,如年龄、性别、病情严重程度、经济状况等,也可采用多种对照,以减少选择偏倚对结果的影响。混杂因素控制方面,在研究设计阶段对研究对象的入排标准加以限制可以初步控制混杂偏倚。如果混杂变量数较少,可以通过匹配和统计学调整控制混杂偏倚,以测量风险因素对结局的真实影响。针对较多混杂变量的情况,可以采用倾向性评分的方法,在一定协变量条件下,实现对多种混杂因素的控制。(三)分析方案1 .分析方案管理开展真实世界研究需要确定临床研究问题,对现有数据进行评估,随后进行研究方案设计与选择、确定统计分析方法、结果解释与再评价。为了减少潜在的偏倚,需要谨慎而周密的研究设计方案,并且应在确定研
16、究问题后尽早开始制定研究方案和统计分析计划。临床数据分析通常会围绕着病因、诊断、治疗、预后及临床预测等相关研究问题展开。病因研究主要是研究危险因素与疾病之间的关系及发病机制。诊断试验主要是研究某类新方法对特定疾病诊断的准确度,以判断其临床应用价值。治疗性研究主要是研究某类治疗方案对特定疾病的疗效及不良反应。预后研究是对疾病不同发展结局的可能性预测,以及研究影响预后的因素。目前,临床上真实世界数据研究包括观察性研究和试验性研究。观察性研究包括病例个案报道、单纯病例研究、横断面研究、病例对照研究和队列研究。2 .传统统计模型肿瘤大数据常用医学统计模型有线性回归模型、logistic回归模型、Cox
17、比例风险回归模型等。传统统计分析是基于样本数据分布的假设对样本数据进行基本描述,主要通过在有限时间内观察随机过程来推断事件发生的概率。相比之下,机器学习算法能够通过丰富的数据学习方法概括数据特征、预测数据结果,而不必对数据分布进行假设。由于大数据的复杂性和多样性,传统的统计推断模型普遍适用性不如机器学习算法。3 .人工智能方法人工智能方法的核心是机器学习算法,主要有3种学习方式。(1)监督学习:监督学习是最常见的机器学习算法,每条训练数据都含有特征组与标签两部分信息,特征组是对相应对象特征的描述,标签则是对象的1个属性。监督式学习的任务是根据对象的特征组对标签的取值进行预测。(2)无监督学习:
18、无监督学习训练数据不含标签。无监督学习的任务通常是对数据本身的模式识别与分类。(3)强化学习:强化学习通过对正确的行动进行奖励来摸索应对环境变化的最优策略,是介于监督学习和无监督学习之间的一类机器学习算法。一方面,强化学习没有一组带有标签的训练数据作为输入,算法需要自发地探索环境来获得训练数据,而另一方面,由于环境对每个行动都能提供反馈,所以可以认为通过探索得到的训练数据是带有标签的。监督学习算法有支持向量机、贝叶斯学习、决策树、逻辑回归等,无监督学习算法有K-means聚类、关联规则学习等,强化学习算法有Q-Iearning.Sarsa等,还有神经网络等特殊算法。目前,疾病风险预测量化识别技
19、术的主要思路是将疾病风险问题转化为统计中的分类问题,然后采用对应模型处理。最普遍应用于疾病风险预测并具有较好效果的算法包括支持向量机、神经网络、随机森林和朴素贝叶斯。(四)评价1 .机器评分:根据研究结局的类型不同,可以对分析模型的性能引入不同评分方式进行评估。针对二分类问题,可以通过引入真阳性、真阴性、假阳性、假阴性形成混淆矩阵,再根据待研究问题对假阴性和假阳性的不同容忍度选择合适的指标进行评估。绘制受试者工作特征曲线,曲线越远离45斜线,表示分类效果越好。也可以通过计算准确率、召回率、精准率,以及平衡了召回率和精准率的F1值和平均准确率指标,整体评估模型性能。针对多分类模型,可以类似二分类
20、问题计算多元混淆矩阵,评估模型性能,也可以通过计算汉明损失值评估被错误分类的标签占比来评估模型性能。针对连续变量问题,可以通过L1和L2距离、残差、均方根误差(真实值与预测值之间误差的平方和均值)、回归平方和(预测值与样本平均值之间误差的平方和)、平均绝对误差(真实值与样本平均值之间误差的平方和均值)、R2(样本的总偏差平方和中被回归平方和解释的百分比)等进行评估。2 .专家评价:在使用研究结果之前,医学专家需要对分析模型指示的结果从医学角度进行评价,判断数据驱动得到的结果是否具备医学意义。如果发现新的混杂因素,需要对数据收集、纳入排除条件修改后重新统计。(五)输出与反馈1 .输出管理:为确保
21、数据全流程安全,需要根据接触信息的不同维度和时间进行输出管理。数据的安全管理贯穿于数据收集、提取、存储、输出、销毁的数据治理全生命周期,包括存储和传输中采用的加密技术、访问控制机制,完善的人员管理制度、风险评估与管理流程、信息与文档管理规范、应急处置操作规程等,并应开展安全措施有效性审计。2 .终端反馈信息:高效而便捷的终端信息反馈可以辅助科研工作者加强信息利用效率。通过数据终端以数据可视化的形式进行信息反馈,能够将人面对可视化信息时强大的感知认知能力优势与计算机的分析计算能力优势有机融合,在数据挖掘等方法技术基础上,结合认知理论、科学可视化和信息可视化理论、人机交互技术,辅助人们更为直观和高
22、效地洞悉大数据背后的信息。3 .再评价:目前,循证医学已被广泛接受,医护人员的主要注意力在于从证据到建议。因此,在使用研究结果之前对证据进行严格的再评价是该过程的关键。医学研究应常规使用科学的方法来识别、评估和综合信息,必须对研究进行方法学质量评价和证据质量评价,如选题、纳入排除标准、数据收集、质量控制、统计方法等方面。(六)安全与合规2020年,关于构建更加完善的要素市场化配置体制机制的意见明确提出加快培育数据要素市场,包括推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全防护。没有网络安全就没有国家安全,随着近年来法律体系的逐步完善,我国对于数据保护的监管体系逐步向纵深发展
23、。真实世界数据所在单位应根据数据安全法、个人信息保护法的要求逐条细化管理规定,构建数据安全监管机制和数据安全审计体系,将内部审计与外部审查相结合,将数据合规落到实处。如基于信息安全技术重要数据识别指南(征求意见稿)等规章构建数据安全治理体系,逐步改进数据安全治理过程;基于信息安全技术个人信息去标识化指南(GB/T37964-2019),综合运用泛化技术、隐私计算、联邦学习等一系列分布式计算存储、脱敏技术,降低个人数据在处理过程中的重识别率,使数据可用不可见,保护个人数据安全与患者隐私。在大数据+科研场景下,面向医院信息系统(hospitalinformationsystems,HIS)xEMR
24、、LIS、放射信息管理系统或医学影像存档和通信系统,以及病理、心电图、超声、体检、基因、手术等高通量医疗数据集成平台,应基于数据分类分级标准,制定不同的脱敏策略及保护制度,数据使用者调用各类数据的过程应保证可追溯性,在有效保障数据安全的前提下进行真实世界研究。如果在数据使用过程中发生泄密事件、带来经济损失或造成其他严重后果,具体科研课题相关单位及其负责人、相关人员应当承担责任。构成犯罪的,依法追究刑事责任。三.真实世界研究的方向规划与操作流程(一)真实世界研究方向真实世界数据通常包含3种基本信息,即患者特征、治疗情况和最终结局。每种信息包含多种变量,由此可以设计出不同方向的真实世界研究。真实世
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 肿瘤 数据 真实 世界 研究 中国 专家 共识 完整版
链接地址:https://www.desk33.com/p-898561.html