非诊断医疗器械统计学指导原则.ppt
非诊断医疗器械统计学指导原则Center for Devices and Radiological Health,FDA1996,引言,包含大量不同种类的产品(诊断/非诊断)-诊断检验(血糖、胆固醇检测仪)-监测(呼吸、心跳监测仪)-治疗器械(眼外科激光仪、心脏除颤仪、冠脉支架)-测量器械(核磁共振成像MRI、超频骨密度测量仪)-代替身体某一失效部分的植入器械(人造髋关节、膝关节、乳房假体、人工心脏瓣膜)医疗器械法规制定 FDA-Center for Device and Radiological Health(CDRH),目录,FDA非诊断医疗器械(植入体内、治疗器械)统计学指导原则(通用)非诊断医疗器械临床研究统计学指导原则个案,非诊断医疗器械统计学指导原则(通用),引言有效的科学证据临床试验设计A.试验目的B.预试验或可行性研究C.标识和选择变量D.研究人群E.对照人群F.分配治疗的方法G.试验设计类型H.盲法I.试验地点和研究者J.样本量和检验效能(把握度),非诊断医疗器械统计学指导原则(通用),研究方案临床试验实施 A.试验监查 B.基线评估 C.干预 D.随访 E.数据的收集和确认临床试验分析 A.提出假设 B.假设与统计检验 C.合并 D.病人的权利与义务,引言,收集和评价可靠的临床数据是很多医疗器械器获得批准的基础该指导原则保证临床试验数据能够从科学和法规角度来解释一个好的医疗器械临床试验的目的是能够提供最客观的安全性和有效性评价在器械临床试验中干扰客观性的任何决定都要付出代价(以审评过程中的延迟或不通过为代价),引言,本文从统计角度为临床试验过程提供了一个更全面的实施办法其目的是讨论医疗器械临床试验中的一些重要问题它对试验的每一步骤进行解释并且讨论了为什么这些步骤会合成一体成为临床试验以及如果在研究中没有它们,将会遇到什么问题,有效的科学证据,生产厂商也许会提交任何证据,使审评部门确信他们器械的安全性和有效性而审评部门应要求进行具有良好对照的临床试验,来提供所需要的、合理的医疗器械安全性和有效性保证需要注意的是在审评部门没有对已知器械作特殊的统计分析要求时研究中所有的统计分析都应该适合分析的目的,且要有全程证明文件,临床试验设计,临床试验:是在人体进行的、比较干预和对照疗效的前瞻性研究(Friedman et al.,1985)干预的含义很广泛,包括“预防、诊断、或治疗药物,医疗器械,以及治疗措施等等Hill(1967)给出的,“临床试验是一个精心设计的、符合伦理学原则的实验,其目的是回答某些精确设计的问题”临床试验是在人体的伦理学试验,因此需要知情同意书和伦理委员会(IRB/IEC)的批准,临床研究的类型,现在,临床试验(clinical trial),干预,前瞻性(prospective),回顾性(retrospective),历史性观察队列(His.Obs.Cohort),前瞻性观察队列(His.Obs.Cohort),病例对照(case-control),横断面(cross-sectional),将来,过去,纵向(longitudinal),临床试验设计,一个好的临床试验设计对照组,或将已知的或可疑的偏倚及其它可能的错误降到最低以便可以清楚、客观的评价医疗器械的疗效当研究者、研究人群或研究过程出现系统偏差,从而不能准确测量一个变量的时候,偏倚就出现了,试验目的(研究的问题),一个有效且效率高的临床实验的设计应有一个清楚、准确的目的通常研究目的由一个研究问题所提出,包括器械的适应症这个研究问题的设立需要极端的小心和特异性“我的器械是否安全有效?”之类的问题太一般化了,没有任何意义。,问题必须限于有效地评价一种特定的干预类型,什么是恰当的途径去评价在目标条件和人群中的有效性?该器械有什么特殊的安全考虑?该器械是否和其它器械一样有效还是更有效?如果是这样,它是一样安全还是更安全?对这种器械的安全性和有效性的评价是否局限于某一特定的亚组人群?测量安全性和有效性的最好的临床方法是什么?,对临床试验的指征进行标识,例如,如果一种新型器械被用来治疗一种进行性的不断恶化的眼科疾病但针对这种疾病目前还存在另外一种已被认可的器械,在这种情况下怎样来界定疗效?这种新器械能否延缓或阻止恶化?如果可以,能否恢复以前失去的功能?能否缓解疼痛或不适感?是否与已被认可的器械做过比较?是否在某种用途上与已被认可的器械一样有效还是效果更好?是否有更少的不良反应?,试验设计时,应考虑的问题,不仅需要明确的研究目的 合适的终点或结局变量对照人群的选择可能用到的假设类型以上这些问题必须在方案完成前写好,因为我们必须决定是否可以通过一个设计很好的临床试验来解决所陈述的研究问题,预试验或可行性研究,如果一个申办者因为对器械在人群中的应用缺乏足够的经验而不能回答临床试验的关键问题那么申办者应该设计一个小样本的人体试验来收集基本信息这个小样本试验(通常称为预试验或可行性研究)的研究目的是确定器械的可能医疗用途、监查潜在的研究变量、检测试验流程、以及决定潜在的反应变量的精确度还可对可能导致偏倚的因素进行有限的评价。预试验的研究方案应报审评部门,预试验或可行性研究,预试验经常被用来做器械的检验,即:申办者有一个关于器械用途的好的想法,需要一个小样本的试验来验证其理论或新技术(进行探索性数据分析)但预试验的范围不能太广临床试验相关问题包括:器械使用、病人处理和监控、数据的收集和确认、以及医师的能力和所关心的问题等等应关注主要变量的测量,包括可能的结局变量和可能造成偏倚的影响变量长期终点的情况,通常不包括在预试验的范围内,标识和选择变量,临床研究的观察中包含两种类型的变量-结局变量-影响变量结局变量(应答变量、终点变量或因变量)定义并且回答研究问题,并且对器械的应用有直接的影响应能被直接观察、客观地测量,以便把偏倚和误差降到最低,标识和选择变量,影响变量(基线变量、诊断/混杂因素或自变量)可以影响结局变量(使之增高或降低)的指标,或者对治疗和结局之间的关系有影响影响变量基线水平在治疗和对照组间的不均衡可能导致错误的结论(将结局变量观察的效果不恰当的分配给干预所造成)因此,恰当的统计检验方法,可以看出在试验开始前两治疗组间变量的基线水平是否已经存在显著的不均衡了,标识和选择变量,在临床试验设计的过程中,应努力寻找那些可能对结局有影响的变量如果试验设计时考虑了这些已知的或可疑的变量申办者就最大限度的降低了在研究结束时得到虚假结论的可能性,标识和选择变量,一旦研究中包含的变量或因素已经被确定时,测量方法的选择就变得非常关键了应采用最能提供信息和尽量客观的方法定量(连续)变量是物理特征的度量(身高、体重等)中国最大的资料库下载定性或分类(离散)变量是对代表整个人群不同状态的度量(生存/死亡、健康/患病、肿瘤分级等),标识和选择变量,定量数据比定性数据包含更多的信息并且通常可用更深奥的数学方法和更强有力的统计分析方法对定量数据进行分析然而,某些情况下,定性指标是最恰当的,或是唯一的可比较信息有很多强有力的非参数方法可用于这种类型变量的分析(生活质量的评价),研究人群,研究人群应是应用医疗器械的目标人群的一个代表子集研究人群应在试验前用严格、明确的入选/排除标准进行定义应由精通本领域的器械研究的临床专家来制订这些标准这些入选/排除标准将定义研究人群的特征,并且通过这种方式确定医疗器械的用途,研究人群,可以将研究人群定义得小一点,以便组成人群的个体具有同质性应用定义严格的人群的好处是在临床试验中可以有一个较小的样本量。即:同质组中反应的变异度通常比异质组低。而这种变异度的降低(假设所有其它重要因素不变),将显著降低要观察出两组间有显著差异时所需要的样本量它的缺点是由较窄范围的人群研究所得出的结论较难推广到一般人群上因此,当临床试验开始前,申办者应与器械审评部门讨论如何定义研究人群,研究人群,入选/排除标准应包括影响因素对结局变量的评价,因为这些变量中的一个或更多也许影响器械的有效性例如,对某一特定疾病来说,性别也许是影响因素。那么很自然的应评价性别在器械评价中的作用,然后确定入选/排除标准、设计的其它方面以及相应分析方面的考虑等还应考虑以下的问题:患者年龄、伴随疾病、治疗或一般情况(包括基线及以后随访)、疾病的严重程度以及其它因素等,对照人群,每个评价干预的临床试验都应该是可比的(基线均衡)所研究器械的安全性和有效性是通过比较结局变量在治疗组病人(使用研究器械组)和对照组病人(另一干预组,包括无干预组)间的差别而得到的一个科学有效的对照人群应与研究人群在重要的患者特征和影响因素上是可比的,也就是说,除了使用的器械不同外,其它方面应尽可能相似,对照的类型,平行对照(最常见)对照为另一干预器械(无器械或安慰器械)将来自同一总体的受试者随机地分入各个组,各组受试者在试验中处于相同的条件,唯一的不同点是各个组所使用的器械不同,如有的是干预器械组,有的是对照器械组,最后根据试验结果作出统计分析可以为干预器械设置一个或多个对照器械对照器械的选择应符合研究方案的要求,平行对照,器械2,器械1,AB,现在,对照的类型,交叉对照:患者接受一个干预(患者接受治疗的顺序必须事先确定),经过一个洗脱期后,再接受另一个干预洗脱期指一个试验期结束、另一个试验期开始之间的一段时间两个干预之间时间间隔的确定应基于现有的关于此种器械可能影响解剖学或生理学过程的知识,使人体内没有第一次治疗的残余效果,这种残余效果可能混淆第二次治疗所得到的结果,A B,器械1 器械1,器械2 器械2,交叉对照,洗脱期,对照的类型,历史对照 一组非平行的患有相同疾病或病情的患者,也接受了器械(或安慰器械)治疗,但与研究人群接受器械治疗的时间和地点不同 历史对照是最难保证研究人群具有可比性的,尤其当研究人群与对照人群的时间、地点严重不同的情况下,历史对照,现在,前瞻性临床试验,过去研究,将来,过去,历史对照的不足,医学和营养状况是动态的-卫生学和其它因素的变化也是如此病人认知、伴随治疗或其它因素的细微差别将导致治疗结果的差别而病人选择、治疗或其它因素的差别可能不会很容易或恰当的记录下来,历史对照的不足,当与一个时间或地点显著不同的历史对照作对比时,结果变量的上述差别很可能被错误的归因于一种新的干预措施(器械的效果)另外,决定主要研究变量的测量方法是否与目前研究中所选择的方法类似通常是很困难的或不可能的不应该假设测量方法是相当的历史对照通常比平行对照需要做多得多的工作来验证与当前研究人群的可比性,分配治疗的方法,将治疗分配给病人时,应将选择偏倚降到最小当具有一个或更多个重要影响因素的病人更频繁地出现在某一组时,将出现选择偏倚例如,如果某病发病率男性比女性高两倍,且某一组中的男性人数是女性的两倍,而另一组中女性人数是男性的两倍,那么,在不进行任何治疗的情况下就已经观察到两组发病率的差别了。此时如果对某一组分配治疗,发病的疗效就会出现混杂(由性别效果产生的无法区分的混杂),分配治疗的方法,因此,必须采取适当步骤,使得各组间已知或可疑影响因素的不平衡达到最小最好的抑制选择偏倚的方法是随机随机过程能够保证将病人分到治疗或对照组的机会是均等的如果试验足够大,且具有有限的比较组,则随机将保证克服影响因素间的不平衡随机还可以防止由于研究者有意或无意识的行为导致的组间不可比(如:选择最严重的病人到医生认为更有效的治疗组),分配治疗的方法,一般来说,试验用器械应根据生物统计学专业人员产生的随机分配表进行编码,以达到随机化的要求受试者应严格按照试验用器械编号的顺序入组,不得随意变动,否则会破坏随机化效果 病人顺序 随机号 1 001(治疗)2 002(治疗)3 003(对照).,分配治疗的方法,试验中所用的随机化的方法应在研究方案中说明,但容易使人预测分组的随机化的细节(如分段长度等)不应包含在试验方案中 1 001 A 2 002 A 3 003 B 分段长度=4 4 004 B 5 005 A 6 006 B 7 007 A 8 008 B,分配治疗的方法,当试验样本量很小,但有很多组时,简单随机也许不能保证各组内影响因素的均衡在这种情况下,应采用将影响变量进行分组的分层随机方法(中心、病史),分配治疗的方法,有时也可采用其它的分配治疗的方法,但除非使用了真正的随机模式,否则很难避免系统的或其它可能的偏倚例如:按照某一系统模式将病人分到某一器械治疗组,假如每隔四个病人,这似乎是随机然而,这样一种周期性的分配有时可能与病人看医生的周期一致,从而导致治疗组与对照组入选的不均衡,进而导致选择偏性,因为治疗分配是可以预测的,分配治疗的方法,应该经常地监查治疗分配过程,以保证各组已知或可能影响终点的重要因素间的大致均衡(长期研究),试验设计,应特别强调的是,由某个研究者造成的背离研究方案将对试验结果的分析产生巨大的问题申办者应保证研究者遵从研究方案如果有迹象表明,在试验过程中不愿遵从方案的研究者,不论何种原因都不能参与临床试验,试验设计平行组设计,平行组设计(最常用的临床试验设计)可为试验器械设置一个或多个对照组试验器械也可按照若干种治疗强度分组对照器械的选择应符合试验方案的要求可分为阳性或阴性对照阳性对照一般采用符合所选适应症的当前公认的有效器械阴性对照一般采用安慰器械,但必须符合伦理学要求,平行组设计,器械2,器械1,AB,现在,试验设计交叉设计,交叉设计是按事先设计好的试验次序,在各个时期对受试者逐一实施各种处理,以比较各处理组间的差异最简单的交叉设计是22形式,即:对每个受试者安排两个试验阶段,分别接受两种不同的器械治疗第一阶段接受何种器械是随机确定的第二阶段必须接受与第一阶段不同的另一种器械每个受试者需经历:准备阶段、第一试验阶段、洗脱期、第二试验阶段在两个试验阶段分别观察两种试验用器械的疗效和安全性,A B,器械1 器械1,器械2 器械2,试验设计交叉设计,洗脱期,试验设计析因设计,当一个医疗器械与一个治疗(如药物治疗)相比较时,经常使用析因设计的方法这种研究设计可回答是医疗器械独自起作用,还是医疗器械与药物治疗相互影响,联合产生作用?本设计的不足之处是实施起来更复杂,药物治疗,器械治疗,有无,有 无,A,B,C,D,试验设计析因设计,偏倚研究者偏倚,临床试验中可能出现的三个更严重的偏倚为研究者偏倚、评价偏倚及安慰剂或伪效应当一个研究者有意识地或潜意识地喜欢某一组、或研究者知道那一组是治疗组时,就会出现研究者偏倚他/她就会更频繁地关注治疗组,从而使得治疗组与对照组被关注的程度有很大的不同,或将重病人放在治疗组而两组之间的这种差异将严重地影响试验的结果/终点,偏倚可评价偏倚,可评价偏性可以是研究者偏性中的一种,在这种偏性中,评价疗效的人可以有意或无意地掩盖某一组的弱点,而倾向于另一组主观性研究或生活质量研究,其终点就非常容易受这种偏性的影响,偏倚安慰剂或伪效应,当病人处于一个非活性治疗模式、但他/她相信自己正在进行有效的治疗并随后显示或报告有所改善时,安慰剂或伪效应就出现了,这也是一种偏倚,盲法,为了在临床试验的过程中防范这些潜在的偏性,必须使用盲法设盲的过程就是给治疗器械编码的过程编码表应由不参与临床治疗的人员保存由于违背盲法所引入的偏性在数据统计分析时是很难评价的,因此一定要在统计分析完成后再接盲,盲法,所需要的设盲程度取决于潜在偏性的强度和严重性单盲:病人不知道自己进入的是治疗组还是对照组双盲:病人和研究者都不知道那一组是治疗组第三方盲法:主要限制评价者,而病人和研究者均知道那一组是治疗组(阅读医学影像或实验室检测人员,盲法,在对医疗器械进行评价的临床试验中,很难或不可能盲病人或研究者,因为安慰剂治疗也许根本就不可行在这种情况下,研究者必须使用额外的手段使得偏性降到最小例如:疗效评价者不知道病人被分到哪一组,研究中心和研究者,由于经常要将各中心的研究数据合并,以便达到所需要的样本量因此,研究中心和研究者的选择在临床试验中是非常重要的选择的中心必须有可代表器械适用的目标人群的充足的病人数每一个中心必须具备研究方案中所描述的用于治疗病人的设施和手段,并且必须有具有资质的人员来实施该项临床试验,研究中心和研究者,然而,应该注意,尽管使用了统一的研究方案,并且研究监查员进了最大的努力,当合并各中心数据时,中心效应还是可能出现的研究方案中应着重阐述如何排除由于中心效应所带来的潜在的偏性,各中心疗效一致性检验(协方差分析),F值 P值治疗分组 2.87 0.0925基线血压 23.12.0001中心 10.80.0001中心*治疗分组 0.43 0.7285,治疗前后血压变化值的协方差分析,F值 P值治疗分组 2.87 0.0925基线血压 23.12.0001中心 10.80.0001,研究中心和研究者,每个中心的主要研究者必须能够将合格的病人入选到试验中来并且必须遵从方案所建立的规程候选的研究者也许过高地估计他们入选和处理研究病人的能力因此建议对中心状况及其近期病人纪录进行审查如果研究者连续违背方案,则该中心数据不能被用于申办者器械的安全性及有效性评价,研究中心和研究者,参加研究的医生对他们的病人负有主要责任必须为每一位病人提供他们认为最好的医疗保健如果一个特殊的治疗方案违背了研究方案,则入选到试验中的该病人就变成不符合研究方案,研究中心和研究者,临床试验基本上是一个基于人群的实验,因此不同于常规的医疗实践应该注意,在很多研究中,均需要对中心进行意向性治疗(Intention To Treat,ITT)分析在这种分析中,违背方案的病人数据将被作为无效数据可以对最终结果产生巨大的、实质性的影响保证研究者遵从研究方案是申办者的责任候选的研究者无论什么原因显示出来在试验的过程中有可能不能严格遵从方案时,不应该让其参加该临床试验,A组 B组 C组 合计随机入组 135 137 137 409剔除试验 无主要疗效评价 2 8 6 16 试验期间脱落 20 16 17 53完成试验 113 113 114 340有效性分析集 ITT 133 129 131 393 PP 113 113 114 340安全性分析集 135 137 137 409,病例分布情况,样本量计算,为什么需要计算样本量?,很多医学杂志在发表实验报告时要求有关样本量和检验效能的详细情况研究者、投资人和企业-都希望知道某个试验要花费多少钱-投资是值得的(得到科学、客观的结果)审评部门要求提供样本量信息(FDA in USA,SFDA in China,CPMP in European Union),为什么需要计算样本量?,太少样本-浪费时间-随访延长-不正确的结论(WORSE)太多样本-浪费金钱和资源-不可行-早期中止试验,为什么需要计算样本量?,一个设计很好的研究应该有足够的统计效能,来检测治疗组间的差异(治疗组 vs.对照/安慰剂)需要多少病人?,样本量估计的五要素,陈述无效假设 H0和备择假设 H1基于无效假设中的结果变量(连续或离散:血压,死亡),选择适当的统计检验方法(t-test,ANOVA,2,)与标准治疗/安慰剂相比,估计合理的效应大小(,组间治疗差异)设定显著性水平和统计效能(,),及单侧或双侧检验 用公式估计样本量,统计假设,临床试验的目的是在目标人群的样本中(试验人群)收集有关医疗器械安全性和有效性的数据然后用统计分析将结论推断到与试验人群具有相同特征的目标人群而只有将研究问题翻译成具有人群特征的数学关系表达式,才能进行统计推断我们称这个数学关系表达式为假设对该假设所作的检验应该为该研究问题提供明确的答案,总体和样本,总体,样本,基于样本资料的推论,对总体规律的推断,例:所有高胆固醇患者,例:在一个临床试验中150例高胆固醇患者,例:试验药物治疗降低了胆固醇,假设检验回顾,效应大小():治疗组间疗效的最小差别无效假设(H0):效应大小()为 0(两个治疗疗效相等)=C-I=0 C=I=C-I 0 C I(优效)备择假设(H1):效应大小()不为0(两个治疗疗效相等)=C-I 0 C I=C-I 0 C I(优效),假设检验步骤,建立无效假设 H0统计分析,评价p值决定是否拒绝无效假设H0 p 值(显著性水平)拒绝 H0 p 值(统计上不显著)没有足够证据拒绝 H0,两类错误,例如,研究问题是“对于某个疾病A,用试验器械治疗后,试验器械组疗效优于对照组吗?”就此问题,我们产生两个假设:无效假设Ho:治疗组病人治疗后的均值不优于对照组均值 备择假设Ha:治疗组病人治疗后的均值优于对照组均值当将样本得出的结论推断到总体时,可能会犯两类决策错误 1)如果样本显示器械治疗组疗效优于对照组(拒绝Ho),而人群中没有发现两组疗效有差异时,就犯I类错误(错误,假阳性)2)如果样本显示两组疗效间无差异(即接受Ho),而实际 上,器械治疗组疗效确实优于对照组时,就犯了II类错 误(错误,假阴性),两类错误,大多数情况下和都是预先指定的,以估计犯I类或II类错误的严重性按照惯例,的值一般设为0.05,也就是当零假设正确时而错误的将其拒绝的可能性为二十分之一(5%)的值取决于所做试验的需要,统计效能(把握度),统计效能(把握度):power=1-将差异正确检出的能力优效性试验:即值可以大一些,但一定不能大于0.20,统计效能(把握度),等效性(非劣效性)试验:应在可行的范围内把定得尽可能的小(power尽可能大)-两组器械确实无差异-检验效能不够“等效”假设下,的值通常取0.1甚至于0.05(power=90%,95%),连续响应变量样本量计算公式,H0:=C-I=0;(治疗组结果与对照组相同)H1:=C-I 0对照组标准变异 在显著性水平、统计效能(1-)下,为了检测两组间的真实差别,两组共需要样本量:,不同值下的Z,不同检验效能(1-)下的Z,例,The mean value for strength of femur in rabbit without arthritis(control)is about 97MPa,with a standard deviation()of about 21MPa.A few previous studies have detected a difference(effect size)of about 17MPa between arthritis rabbits and controls,and other studies have found no significant difference between the strength(outcome)of the arthritis and the control femur.Question:How many cases and controls will be needed,at(two-tailed)=0.05,and=0.10(power=90%),to detect a difference of 17MPa between the two groups?H0:=0(no difference in mean strength of the femur in arthritis cases and controls)H1:0(there is a difference)=21MPa,=17MPa,Z=1.96,Z=1.2822N=4(1.96+1.282)2(21)2/172=64;N=32,(,)值,离散响应变量样本量计算公式(优效性检验),两个独立样本PC:对照组率PI:治疗组率:率差,2N=4(Z+Z)2 P(1-P)/2,其中:,值的确定,率差,由医生确定(有临床意义)基于以前的数据(临床试验、参考资料)如果没有可利用的数据,那么就有必要召集一个医学专家参与的研讨会,以便定出一个合理的值无论在上述何种情况下,报审评部门审批时申办者都应该提供选择某一值的理由,离散响应变量样本量计算公式(等效性/非劣效性检验),2N=4(Z+Z/2)2 P(1-P)/2:有临床意义的界值该值的大小应由临床医生来确定两个率比较时,界值一般取10%或取对照组有效率的10%在没有任何资料的情况下,可根据既往经验推算审评时,申办者应提供选择某一值的理由,样本量注意事项,临床试验假设检验(优效、等效/非劣效)应包含临床有意义的差值(由临床专家确定的具有临床显著意义的结果变量间的差别)因此,对于一个已知的后果变量,变异度越大,所需要的样本量也就越大(处于分子位置)类似地,当变异度已知时,要检测的临床差异越小,所需要的样本量就越大(处于分母位置)Power要尽可能的大(得到阳性结果的保证),例,Suppose the annual event rate in control group is 20%.The investigator hopes that the intervention will reduce the annual rate to 15%.The study is planned so that each participant will be followed for 2 years.Therefore,if the assumption are accurate,approximately 40%(PC)of the participants in the control group and 30%(PI)of the participants in the intervention group will develop an eventQuestion:How many cases and controls will be needed,at(two-tailed)=0.05,and=0.10(power=90%),to detect a 5%decline in annual rate between the two groups?,=(0.4+0.3)/2=0.35,多终点事件时样本含量的计算,多终点事件(心梗、死亡、脑卒中)对每一个结果变量轮流计算样本量选择最大的样本量,有失访或丢失时样本量的调整,设p为失访比例,样本量增加 1/(1-p)例:若:N=100,p=20%则:N*=1/(1-0.20)N=125,当没有足够信息时如何估计样本量?,扩大检索范围(检索相关议题、非医学杂志、以前研究报告、文章)与其他研究者联系(判断、预测、已知的未发表相关结果)进行预试验合理猜测,方案,每个设计良好的临床试验都应该有一个详尽的方案,即:精确描述如何实施临床试验、临床数据是如何收集和分析的全面的计划方案应在试验开始前加以确定并应包含以下项目,方案,1.试验背景:旨在完整描述并且概述与研究目的相关的所有以往科学研究2.试验目的:确定与所研究问题有关的用药指征、有临床意义的疗效、以及与之关联的结果变量3.对试验设计的完整描述:包括设计类型,数据收集方法,所选择对照的类型,设盲的方法和水平,样本量计算依据,以及治疗的分配方法(随机、分层、其它),方案,4.对研究人群的完整描述:-研究地点、研究对象的选择方法(入 选/排除标准)-患者类型(住院患者还是门诊患者)-研究对象的相关临床和人口统计学特 征应与目标人群特征及器械的可能用 途(临床应用)相结合来进行探讨,方案,5.对干预的完整描述:包括治疗频率和持续时间,以及医师所采取的措施和患者的依从性6每次随访过程和所需随访时间表的完整描述:包括每次随访要完成的所有测量,以及要收集的信息。还包括如何处理患者的失访,以及申办者会采取哪些措施来保证失访患者和中途退出研究患者的健康7.对数据收集和分析的详细描述:包括数据收集和确认的方法、数据监查、统计分析方法、以及出现统计学显著的非预期的阳性或阴性结果时,如何及为什么提前终止临床试验的特殊准则,方案,8.对以下几点的详尽描述:研究者简历、监查方法以及试验的管理技术(试验监查员,政策和数据监查委员会,等等)包括如何对方案进行必要的修改9.对试验中使用的临床术语和其他术语进行精确定义的清单10.所有的知情同意书以及伦理委员会需要而上述没提到的项目,临床试验实施,如果设计了一个详细的方案(对试验设计的完整描述、相应的方法学、预期的分析方法),那么实施试验就变得容易得多了然而,临床试验中经常会发生一些事先无法预料的问题所以非常有必要制订针对偶然事件的计划并且要保证能够迅速地执行这些计划,临床试验实施,制定应对偶然事件的计划应该非常谨慎,并且应保证研究设计的完整性任何对方案的修改都可能会降低设计的效率然而,任何临床试验实施时都不太可能刚好同先前的设计完全一致因此,预先估计一些可能发生的问题并制定相应的计划,以便在发生时进行解决是非常明智的,试验监查,实施临床试验过程中,主要关注点为:确保研究对象入选、干预的分配、相关变量的测量(在适当的时间),以及数据记录的准确性与完整性,就像方案中所描述的一样这需要试验的申办者以极其严谨的态度密切监查试验的实施过程一个指定的试验监查员应当保证方案的顺从性,并且能够发现方案存在的潜在缺陷,必要时对方案进行修改,试验监查,临床试验一般在多个研究中心进行而且每个研究中心都有一个或多个研究者参加因此为了保证试验的完整性,监查员起着很重要的作用,即:每个中心的每个研究者均按照统一的方案设计实施试验,试验监查,例如,如果一个或多个研究者认为有必要对方案进行修改且该试验没有被密切监查那么每个研究中心或每个研究者就有可能按照他/她自己的方式对方案进行修改这样就可能导致有多少个研究中心或有多少名研究人员,就有多少种截然不同的方案修改版,这将危害到对整个试验结果的汇总,试验监查,如果研究者自始至终地违反方案,那么他所在中心的数据就不能用来评价申办者器械的安全性和有效性为了避免这种可能,申办者应当建立一种机制以应对可能的方案修改并任命一名监查员,来确保所有中心和研究者在适当的时间对方案进行相同的修改,基线评价,不论临床试验是否采用随机的方法,基线观测值均基于干预前所有患者的值。由于下列原因,应对所有研究对象的基线信息进行精确定义:-研究者评价受试者是否合格-进行亚组分层(必要的话)-描述目标人群的特征,或评价试验样本代表 目标人群的代表性-干预前的基线体检/实验室测量,基线评价,基线数据的评价有助于标识干预组间必须均衡的影响因素-病人目前的病情-伴随用药-治疗-年龄-性别-社会经济状况-既往病史,基线评价,对基线数据的评价允许选择及采用使潜在偏倚最小化的方法。例如,对那些已知会影响结果的影响因素,可在分配干预时采用分层或均衡分配的方法如果在试验过程中发现影响结果的影响因素在两组间不均衡,则在数据分析过程中就应该使用调整或标化的方法来使各组间的不均衡达到最小,干预措施,干预的分配和应用都必须严格按照方案来进行每一过程都必须有一个预先安排好的标准操作规程(Standard Operating Procedure,SOP)除了使用的器械不同,治疗组和对照组的操作规程应尽可能一样,操作流程图,随访,干预后的随访不是简单的安排时间约见受试者应该有一个合理的安排以确保随访的受试者有较好的依从性即使各组间在随访过程中仅存在中等程度的偏差,也可导致分析时巨大的偏倚,随访,随访有两个重要特征:完整性和随访期完整性:入选试验的受试者完成全部随访的比例非常重要的是这个比例应尽可能地接近100%,因为统计效能会随患者的失访而降低比例小于80%的随访通常被认为是质量很差的试验,且这些试验通常被认为是不完整的同样重要的是各组及各研究中心间的随访比例应是相似的,随访,不完整的随访是分析中主要考虑的问题试验必须要有可行的程序来追踪那些失访的受试者失访患者的估计是一个重要的分析问题,因为这些患者也许可以为临床试验提供最重要的信息,特别是如果这些患者的后果不好的情况下因此,判定进入试验的所有病人(包括那些一次都没来随访的患者)的健康状况是非常重要的,随访,随访期是指在干预后研究个体被观察至被评估之间的时期随访期的长短必须与安全性及有效性的要求一致,即,它必须等于声称的发挥效力的时间同时,随访期必须足够长,以便能够精确地估计已知的或可疑的不良事件发生率各组间和各研究中心间的随访期也应该相同,数据的收集和确认,获得和确认试验中所有测量变量的准确性的方法必须在试验开始前准备好,并要监督它的执行情况每个研究点必须有足够的具有相关技术的人员以确保获得有效的数据要特别注意每一细节,因为不可能回顾性地评价未在规定时间内取得的数据或不具有一定精度的数据,数据的收集和确认,这些方法必须包括数据测量、记录,转成电子媒介及确认的质控技术试验前应对试验中观察的每一变量、条件或特征给予明确的定义研究者应完全理解所有的定义术语,而且必须确保各研究者与各研究中心间的一致性试验术语的一致性是非常重要的,它能保证与文献中的其它试验或研究相比时具有可比性,以及与历史对照相比时具有可比性,临床试验统计分析,应预先在方案中把统计分析方法确定下来当在试验中发生了出乎预料的偏倚时,应在试验过程中对研究方案进行修改大多数情况下,在试验实施过程中引入的任何大的偏倚,都无法通过统计分析的调整过程对其进行满意的调整,验证假设检验,在开始一个详细的统计分析之前,有必要对预计的统计分析中使用的假设进行验证这些假设包括用于假设检验或估计的概率分布的主要特征影响因素在各中心及各组间分布的相似性;以及验证变量间可疑的关联(相关或不相关),验证假设检验,对统计检验中要用到的分布和方差假设进行验证是非常重要的只有当所有假设被验证时,此种统计检验才能被应用例如,假如假设服从正态(高斯)分布,那么应对数据用适当的统计方法进行检验,以保证数据没有显著地偏离正态分布如果数据显著地偏离了正态分布,那么就要使用其它的更合适的检验方法(非参方法),验证假设检验,评价影响因素在各研究中心以及各对照组间是否平衡也是非常必要的任何观测到的不平衡都必须进行校正,以保证最终进行比较的样本组间具有可比性如果需要调整的变量数不多,并且要调整的变量与因变量高度相关,那么协方差分析将是一种非常有效的调整工具,验证假设检验,但是,如果需要调整的变量数很多,要想把所有的变量都调整得很好,将是一件很困难的事情确证性临床试验不容许过度调整变量因此,应该非常严谨地实施试验“如果考虑不周详,怀着各种侥幸心理开始试验,寄希望于最终的统计分析可以解决各种问题,这种做法必将导致灾难性的后果。”,验证假设检验,如果分析假设某些影响变量或响应变量与结果无关,那么应该使用恰当的统计检验来验证这些假设如果分析时假设变量是独立的,但实际上变量间是相关的或不独立的,则可导致假设检验的重大错误,假设与统计检验,基本上,所有的比较分析都要进行假设检验分析报告应明确地陈述要检验的假设、选择的统计检验方法等,数据合并,申办者必须将各个研究中心的数据合并以取得足够大的样本量合并前必须检检各个影响因素之间是否均衡,以及所有的临床操作过程都是按照方案中所描述的方式进行的有时,某个研究中心得到的数据会显著偏离其它中心的数据申办者必须调查由研究中心造成的所有相关结果,并向审评单位报告这些情况,以决定为什么该研究中心会出现不同的结果,对患者的责任与义务,申办者应该采用各种测量方法,记录进入试验的每个病人试验后的健康状况(恶化、好转、有后遗症、死亡)当不可能找到所有的病人的时候,申办者必须证明其已经使用了一切可能的方法试图找到失访的病人强迫病人违背本人的意愿继续随访是不恰当的但是,至少应该做出一个对病人发病率或死亡率的合理估计,对患者的责任与义务,有时,安全性和有效性的评判会随着比较组中一个小的亚组病人的不同而改变如果失访的病人数与观察到异常的亚组患者相比占较大比例时则证明安全性和有效性的能力就大大削弱了,对患者的责任与义务,应对数据采用”intention-to-treat”(ITT,意向性治疗)分析(更接近临床实践)在这种分析下,干预组和对照组的失访患者必须被计算在内,就像他们实际上完成了他们所在组的研究缺失值用前一次数据结转由于患者失访后,其结果变量中没有数值,这些观察不