医学统计学 临床随访研究及分析.ppt
临床随访研究及分析,生存分析(survival analysis),实际问题,观察、比较两组肾移植病人手术后的生存时间和结局,在该研究中除考虑随访对象的结局(生存或死亡)外,还应考虑随访对象的“生存时间”,因为即使结局相同,而发生结局的快慢不同,仍可提示两组间存在差异随访研究过程中研究对象可能会失访,或死于其他疾病,或因研究经费和时间的限制不可能等到所有的观察对象都出现结果才中止试验,这种现象称为截尾(censoring)或终检,截尾数据所提供的信息是不完全的(incomplete),但不考虑或不利用这类数据又是信息的损失,生存分析(survival analysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。生存分析不同于其它多因素分析的主要区别点就是生存分析考虑了每个观测出现某一结局的时间长短。,前 言,4.1 生存分析基本概念,4.1.1生存时间(survival time,failure time)终点事件与起始事件之间的时间间隔。终点事件指研究者所关心的特定结局。起始事件是反映研究对象生存过程的起 始特征的事件。,生存时间举例,起始事件 终点事件 服药 痊愈 手术切除 死亡 染毒 死亡 化疗 缓解 缓解 复发,终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,不能随意改变。,4.1.2观察结果(outcome),所谓观察结果就是我们关心的终点事件在生存分析中称终检变量(censored variable)或死亡变量(dead variable)当被观察对象出现终点事件记为1,否则记为0(统称为截尾),4.1.3生存时间的类型,1.完全数据(complete data)从起点至死亡(死于所研究疾病)所经历的时间。出现结局事件2.截尾数据(删失数据,censored data)从起点至截尾点所经历的时间。截尾原因:失访、死于其它疾病、观察结束时病人尚存活等。,例如:某肿瘤医院调查了1991-1995年间经手术治疗的大肠癌患者150例,对可能影响大肠癌术后生存时间的因素进行了调查,如性别、年龄、组织学分类、肿瘤大小、DureS分期等。随访截止日期为2000年12月30日,随访记录见下表。,大肠癌患者的随访记录 编号 性别 年龄 手术日期 随访终止日期 随访结局 生存时间(天)1 男 45 1991.05.20 1995.06.04 死亡 1476 2 男 50 1992.01.12 1998.08.25 死亡 2417 3 女 36 1991.10.24 1994.03.18 失访 876+4 男 52 1994.11.02 2000.12.30 存活 2250+5 女 56 1994.06.25 1995.03.17 死亡 265 6 女 60 1993.12.05 1996.08.16 死于其它 985+,生存时间,生存时间的度量单位可以是年、月、日、小时等。常用符号t表示,截尾数据在其右上角标记“+”。生存资料的主要特点:含有截尾数据。截尾数据的特点:真实的生存时间未知,只知道比观察到的截尾生存时间要长。生存时间的分布一般不呈正态分布。,例15.5 102名黑色素瘤患者的生存时间(月)如下,102名黑色素瘤患者的生存时间的频数分布,4.2 常用观察指标及其估计,半数生存时间(median survival time)表示50的个体存活且有50的个体死亡的时间 102名黑色素瘤患者的中位生存时间为 M7.4(月),死亡概率(dead probability),死亡概率指在某时间段内受试者死亡的可能性,记为 q.与观察时间有关,生存概率(survival probability),生存概率是指在某时间段内受试者生存的可能性,记为 p 与观察时间有关 关系 同一时刻有:p=1-q,某医院泌尿外科于1979-1982年间作了19例肾移植手术,拟了解肾移植后病人的生存时间(天)。规定随访开始时间为病人术后一天,死亡事件为该病人因与肾移植有关的各种原因而死亡。后改进手术方式,于1983-1986年又作了14例,资料如下(有+的数据表示该病人截尾)。,一般手术组患者,在20天前死亡3人,尚有16人活。20天时有2名死亡,故20天时的死亡概率为2/16=0.125,生存概率为1-0.125=0.875。在64天前死亡9人,尚有10人存活,64天时失访1人,死亡1人,故64天时的死亡概率为1/10=0.1,生存概率为0.9。到135天前,已死亡10人,失访1人,尚有8人确知存活。135天时,死亡1人,故135天时的死亡概率为1/8=0.125,生存概率为0.875,生存函数(survival function),或累积生存概率(cumulative survival probability)指观察对象经历t个单位时段后仍存活的可能性。,生存率(survival rate),102名黑色素瘤患者中的生存时间小于12个月的有69人,大于12个月的有33人,故其1年生存率为:。由于不同时间的生存人数不同,故不同时间的生存率不同,由例子可看出,生存率与生存概率不同,生存概率是单个时段的结果,而生存率实质上是累积生存概率(cumulative probability of survival),是多个时段的累积结果。例如,3年生存率是第1年存活,第2年也存活,第3年还存活的可能性。,生存曲线(survival curve)以观察(随访)时间为横轴,以生存率为纵,将各个时间点所对应的生存率连接在一起的曲线图。生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓 的生存曲线表示高生存率或较长生存 期,陡峭的生存曲线表示低生存率或较 短生存期。,生存率,图15.8 102名黑色素瘤患者的生存率(Kaplan-Meier)估计,该法是Kaplan和Meier于1958年首先提出,故又称Kaplan-Meier法 利用条件概率乘法原理来估计生存率,即:,乘积-极限法(product-limit,PL),一般手术组的生存概率和生存率的计算见下表,图15.9 两组手术方式生存概率(Kaplan-Meier)曲线,生存率的标准误,用Greenwood法估计,nj表示时刻tj的期初观察人数,dj表示tj时刻的死亡人数,生存率的可信区间,用正态近似法,即100(1-)可信区间为:,例如20天时的生存率为,S(t=20)=0.7368,标准误为:,95的可信区间为:0.73681.960.0101=(0.7170,0.7566),生存曲线的log-rank检验,log-rank检验(对数秩检验、时序检验)该检验属非参数检验,用于比较两组或多组生存曲线或生存时间是否相同。检验统计量为卡方。自由度=组数-1。P0.05,两组或多组生存曲线不同。P0.05,两组或多组生存曲线差别无统计学意义。,例15.7 对例15.2中两种手术方式下的肾移植病人的生存过程进行比较,建立检验假设:H0:两组肾移植病人的生存过程相同;H1:两组肾移植病人的生存过程不同。=0.05。排秩次计算各组在各观察时间的期初病例数 计算各组在各观察时间的理论死亡人数,观察时间为3时各组各时点期初生存人数和死亡人数四格表,各组理论死亡人数的计算与四格表中的理论数计算相同,,,将各组理论死亡总数与实际死亡总数作比较,=组数1,P0.0105,可认为两组的生存过程有差别。改进手术组比一般手术组患者的生存率大,第四节 Cox比例风险回归模型,Coxs proportional hazards regression model),简称Cox回归模型。该模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。其优点:多因素分析方法不考虑生存时间分布利用截尾数据,一、Cox模型的基本形式,h(t,X)t时刻风险函数、风险率或瞬时死亡 率(hazard function)。h0(t)基准风险函数,即所有变量都取0时t 时刻风险函数。X1、X2、Xp协变量、影响因素、预后 因素。1、2、p回归系数。,表示时间时个体暴露于危险因素状态(x1,x2,xm)与暴露于危险因素状态(x1,x2,xm)下发病的相对危险度(RR)。,0,RR1,说明变量X增加时,危险率增加,即X是危险因素。0,RR1,说明变量X增加时,危险率下降,即X是保护因素。=0,RR=1,说明变量X增加时,危险率不变,即X是危险无关因素。,二、参数估计与假设检验,(一)参数估计 最大似然法(二)假设检验似然比检验(likelihood ratio test)得分检验(score test)Wald检验(Wald test),三、因素筛选与最优模型的建立,变量筛选方法向前引入法(前进法)Forward向后剔除法(后退法)Backward逐步引入-剔除法(逐步法)Stepwise,检验水准初步的、探索性的研究,或变量数较少时,可取0.10。设计严谨的、证实性的研究,或变量数较多时,可取0.05或0.01。检验水准包括引入的检验水准和剔除的检验水准。一般地,剔除引入。,分析结果(结果解释),与生存相关的因素因素作用大小及方向:保护因素还是危险因素、相对危险度的大小。因素作用大小排序:标准化回归系数的绝对值。,分析结果(结果解释),个体的预后指数及预后分组:预后指数(prognostic index,PI)=预后指数越小,预后越好;预后指数越大,预后越差。,表17.14 25例某病人用两种治疗方法的生存时间,治疗方案(group)是研究因素,而肾功能(kidney)是混杂因素。所得Cox比例风险模型如下:表17.15 例17.5资料的Cox回归模型及变量的Walds检验变 量系 数标准误z值P,由此即得Cox比例风险函数,或,分析结果(结果解释),肾功能正常者接受B 方案治疗比接受A方案在某时刻死亡的相对危险度肾功能不正常者接受B 方案治疗比接受A方案在某时刻死亡的相对危险度,肾功能不正常者接受B 方案治疗,比肾功能正常者接受A方案在某时刻死亡的相对危险度,小结(论文报告中应写明),1材料与方法病例来源、起始事件、终点事件、观察终止时间、截尾情况、随访结果的获得方法,样本含量、截尾例数及百分比(%)。建立数据库方法统计学处理方法 Kaplan-Meier法估计生存率 log-rank检验进行组间生存率比较 Cox模型进行多因素分析,2结果估计:Kaplan-Meier生存率及生存曲线。比较:log-rank检验卡方值及其P值。因素分析及预测:变量赋值(数量化方法)表变量统计描述:各组病例数和构成比(分类变量)均数和标准差(数值变量)变量筛选方法及检验水准Cox回归结果及统计解释,Cox回归与多元线性回归、logistic回归的比较,案例分析,某研究者观察了确诊后采取同样方案进行化疗的26例急性混合型白血病患者,欲了解某种不良染色体是否会影响患者病情的缓解,将治疗后120天内症状是否缓解作为结果变量(缓解0;未缓解1),有无不良染色体作为研究因素。整理资料见下表。,有无不良染色体与缓解的关系不良染色体 缓解 未缓解 合计 缓解率()有 5 13 18 27.8 无 3 5 8 37.5 合 计 8 18 26 30.8考虑到例数较小,采用Fisher确切概率法,得到P0.667,尚不能认为不良染色体影响病情的缓解。,这种情况下的结果并不可靠,原因是两个比较组之间其它影响患者病情缓解的因素不一定均衡,因而需要考虑平衡其它可能的影响因素如年龄(岁)、骨髓原幼细胞分组(501;500)、CD34表达(阳性1;阴性0)、性别(男1;女0)的作用。,多因素logistic回归分析结果 因素 回归系数 Wald卡方 P OR染色体 1.457 1.161 0.281 4.29骨髓原幼 2.961 4.778 0.029 19.2细胞分组采用多因素logistic回归分析,经逐步法按0.10水准,平衡骨髓原幼细胞分组后,有无不良染色体不影响患者的缓解(P0.281)。,有一位临床医生指出,仅考虑是否缓解还不够,如果进一步利用缓解时间的长短来进行分析,信息利用得更充分。费了很大辛苦,幸好查到了所有患者的缓解时间,于是采用log-rank检验比较有无不良染色体两组病人的生存曲线,得卡方1.28,P0.2579,仍然显示患者的缓解时间与不良染色体无关。,生存时间的比较仍然需要考虑组间的可比性,经多因素Cox回归分析,当检验水准0.10时的结果如下。因素 回归系数 卡方 P RR染色体 1.838 3.709 0.054 6.29CD34 1.877 8.904 0.003 6.54骨髓原幼 3.205 8.838 0.003 24.4细胞分组,