生存分析统计学.ppt
复 习,Logistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类的。可用影响结果变量发生的因素为自变量与因变量建立回归方程。,复 习,1.Logistic回归分析的数据结构2.Logistic回归分析的模型3.筛选变量的常用方法4.Logistic回归分析的结果解释,目的:作出以多个自变量(影响因素)估计应变量(结果变量)的logistic回归方程资料:1.应变量为反映某现象发生与不发生的二值变量;2.自变量(影响因素)可能是二值数据或等级资料或计量资料。分类变量要数量化用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系,1.Logistic回归模型的数据结构,设资料中有一个因变量Y、p个自变量X1,X2,Xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。,表1.Logistic回归模型的数据结构实验对象 Y X1 X2 X3.XP 1 Y1 a11 a12 a13 a1p 2 Y2 a21 a22 a23 a2p 3 Y3 a31 a32 a33 a3p n Yn an1 an2 an3 anp,其中:Y取值是二值或多项分类,5,表2.肺癌与危险因素的调查分析例号 是否患病 性别 吸烟 年龄 地区 1 0 1 0 30 0 2 0 0 1 46 1 3 1 0 0 35 1 30 1 0 0 26 1 是否患病:1代表否,0代表是 性 别:1代表男,0代表女 吸 烟:1代表吸烟,0代表不吸烟 地 区:1代表农村,0代表城市,表3.配对资料(1:1)对子号 病例 对照 X1 X2 X3 X1 X2 X3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3 精 神 状 况,取值:0,1,2,2、Logistic回归模型,令:Y=1 发病(阳性、死亡、治愈等)Y=0 未发病(阴性、生存、未治愈等)将发病(Y=1)的概率记为P,它与自变量x1,x2,xp之间的Logistic回归模型为:,定义:为Logistic变换,即:,2.Logistic回归的模型,3.筛选变量的常用方法,向前法(forward selection)后退法(backward selection)逐步回归法(stepwise selection),4.Logistic回归的结果解释,4.Logistic回归的结果解释,设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数 设第i个因素的回归系数为bi当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素,生存分析,医学科研中的统计学方法,对于急性病的疗效评价,一般可以用治愈率、病死率等指标但对于肿瘤、结核及其他慢性疾病,其预后不是短期内所能明确判断的,因此上述指标不太适用。,临床试验研究通常观察各个对象在各个时点上事件的发生情况(结局),以评价临床疗效。在比较不同疗法的疗效时,不仅要考虑是否有效,还要考虑从试验开始到产生疗效的时间。,例:假定用甲、乙两种药物治疗某病,其治愈率均为80,能否说两种疗效一致?还应考虑时间效应问题,如果甲药平均3天治愈80,而乙药平均7天治愈80,则可以认为甲药比乙药的疗效好。,评价两种治疗方法的好坏,不能简单地比较治愈率和有效率,还要看出现结局的时间长短,因此,不能用t检验和卡方检验等不包含时间因素的方法,需要学习新的方法。可以对疾病进行长期随访,统计一定年限后的生存和死亡情况以判断疗效。这就需要用生存分析(survival analysis)。,18,主要内容,基本概念生存率估计与生存曲线生存曲线的log-rank检验,生存时间:是任何两个有联系事件之间的时间间隔,终点(失效)事件与起始事件之间的时间间隔,常用符号t表示。广义的生存时间定义为从某种起始事件到终点事件所经历的时间跨度。狭义的生存时间常指患某种疾病的病人从发病到死亡所经历的时间跨度;,一、基本概念,21,一、基本概念,生存时间(survival time):疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短,所经历的时间称为生存时间,一、基本概念,起始事件 是反映生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始、接触毒物等,研究设计时需要明确规定。终点事件 指反映结局特征的事件,又称为死亡事件、失效事件。如肾移植病人因肾功能丧失引起的死亡,急性白血病患者的复发,癌症患者的死亡等。研究设计时也需事先明确规定。,生存时间举例,起始事件 终点事件 治疗开始(服药)痊愈 疾病确诊 死亡 手术切除 死亡 接触毒物 出现反应 化疗 缓解 缓解 复发,生存分析(survival analysis)是将事件的结局(终点事件)和出现这一结局所经历的时间结合起来分析的一种统计分析方法。能分析完全数据的资料,同时也可以分析包含不完全数据的资料生存分析与其它多因素分析的主要区别就是生存分析考虑了每个观测出现某一结局的时间长短。,一、基本概念,25,生存分析(survival analysis):不完全数据提供了部分信息。必须用专门的方法进行统计处理,这类统计方法起源于对寿命资料的统计分析,故称为生存分析。,26,生存分析(survival analysis):研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。主要用于反映慢性病的指标能较好地处理不够完整的随访资料,27,一、基本概念,临床试验及其随访资料的特点一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据(complete data);另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据 censored data)。,生存时间的类型,完全数据(complete data):从起点至死亡(死于所研究疾病)所经历的时间。截尾数据(删失数据,censored data):从起点至截尾点所经历的时间。截尾原因:失访、死于其它疾病、观察结束时病人尚存活等。,资料收集,生存时间一般是通过随访收集。随访内容 确定开始随访的时间(观察起点)如入院时间、确诊时间、开始治疗时间等。例如:乳腺癌:乳腺切除的第一天,或出院日 白血病:出院日,或开始治疗的日期。确诊时间、手术时间、开始治疗时间、出院时间等相对较确切,常作为随访开始时间。,随访的结局可能有以下几种:死亡,即处理失效,终止时间即为“死亡”时间 生存但中途失访,包括拒绝访问、失去联系或中途退出试验,其终止时间以最后一次访问时间为准 死于其他与研究疾病无关的原因,如肺癌患者死于心肌梗死、自杀或车祸等,其终止随访的时间为死亡时间 随访截止,随访研究结束时观察对象仍存活,终止随访时间为研究结束时间,影响生存时间的有关因素(协变量),如患者的年龄、病程、术前健康状况、经济、文化、职业等以便分析这些因素对生存时间的影响,随访方式,全体观察对象同时接受处理措施,观察到最后一例出现结果,或者事先规定的随访截止时间,图中“”表示“死亡”,“o”表示失访、退出研究或死于与本研究无关的其它原因,随访方式,全体观察对象在不同时间接受治疗处理,完成一定数量随访病例后决定随访截止时间,或按事先规定的时间停止随访这是临床试验最常见的形式,图中“”表示“死亡”,“o”表示失访、退出研究或死于与本研究无关的其它原因,ta+tb+tc+td,35,截尾数据的处理,因为不太好处理截尾数据,很多临床研究工作者常常将失访或中止等原因造成的截尾数据在分析时抛弃。截尾数据提供的信息虽然是不完全的,但也很有价值,不应随便删掉它。,36,例:某研究者追踪100名病人经治疗后的生存情况,第1年有30人死亡,第3年时,有20人死亡,有40人失访(退出观察),10人存活。试估计其生存率。表4 是否去掉截尾数据不同情况 去掉截尾数据 不去掉截尾数据 n=60 n=100 生存数 生存率 生存数 生存率 1年 30 30/60=50%70 70/100=70%3年 10 10/60=13%10?,37,随访记录表,随访资料记录 的项目通常包括:处理组别、开始观察日期、终止观察日期、结局、生存时间等。,表4.9例病人的随访记录,病号 性别 开始日期 终止日期 结局 处理 1 男 08/31/82 10/31/89 死亡 手术 2 男 08/31/82 08/28/86 失访 非手术 3 女 10/30/83 03/31/90 死亡 非手术 4 男 12/01/84 10/01/87 死亡 非手术 5 女 01/01/84 10/01/88 死亡 手术 6 男 07/01/85 10/01/88 死亡 手术 7 男 08/31/87 12/30/90 生存 手术 8 女 07/11/86 12/17/90 死亡 手术 9 男 08/31/86 10/01/90 死亡 非手术,表5.9例病人随访记录的数据库,n sex time outcome treat 1 1 7 1 1 2 1 4 0 0 3 0 6 1 0 4 1 3 1 0 5 0 4 1 1 6 1 3 1 1 7 1 3 0 1 8 0 4 1 1 9 1 4 1 0,表6.膀胱肿瘤患者生存资料变量赋值表,表7.6例膀胱肿瘤患者生存资料原始记录表,生存分析的主要内容,第一,描述生存过程 研究生存时间的分布特点,估计 生存率,生存曲线;第二,比较生存过程(假设检验)对两组或多组生存率进行比较;第三,影响生存时间的因素分析 了解影响生存过程的主要因素,为改善预后提供指导。,例 在对资料进行描述时:5名癌症患者(n=5)存活时间(月):6 10 14 20 20 平均生存时间:mean=18,median=14,7 8+25 35+50 当有截尾数据时,?,死亡概率(mortality probability),是指死于某时段内的可能性大小。记为q,年死亡概率计算公式为:某年内死亡数 q 某年年初人口数若年内有删失,则分母用校正人口数:校正人口数年初人口数 1/2 删失数,二、生存资料常计算的几种率,死亡概率是指已活满t时刻的个体,在此后一段时期内(t 至)死亡的可能性。死亡概率的计算公式为,若t至 内有截尾值,上式的死亡概率也偏低,可对分母加以调整,为:如果很短,即 时,死亡概率为t时刻的瞬时死亡概率,或称为危险函数(hazard function,h(t)),其意义为刚刚活过t时刻的个体在t时刻死亡的概率。,生存概率(survival probability),表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小,记为p。年生存概率计算公式为:活满某一年人数 p 某年年初人口数若年内有删失,则分母用校正人口数。,若在t至 时段内有截尾值,也应计算调整生存概率生存概率与死亡概率之间有以下关系:p=1-q,生存率与生存函数,累积生存概率,简称生存率,是指病人经过t个时间单位之后仍存活的概率。若令S(t)为任意时刻t的生存率,T为生存期,得S(t)=P(Tt)0t,称S(t)为生存率函数,简称生存函数,三、生存率估计(描述),医学研究中的生存资料分布常常不规则、不确定或未知分布,因而常用非参数法估计生存率。根据样本含量的大小可分别选择1.乘积限法(小样本时)2.寿命表法(大样本时),1.乘积限法 Product-limit method,简称积限法或PL法,直接用概率乘法原理估计生存率,它是由统计学家Kaplan和Meier于1958年首先提出的,因此又称为Kaplan-Meier法。基本思想:将生存时间(包括截尾数据)逐个由小到大依次排列,并对其中的每个死亡点进行死亡概率、生存概率和生存率估计。应用条件:数据个数较少时。,Kaplan-Meier法计算生存率,此法计算生存率时,先将每个个体的生存时间按照由小到大的顺序排列,排序时若截尾值与非截尾值的观察时间相同,则规定非截尾值小于截尾值,排在截尾值之前。然后依次计算出各时段的死亡概率、生存概率,进而计算出从观察开始至各时刻的生存率及其标准误。,某研究者对肺癌病人嗜酸粒细胞(EC)阳性与阴性病人的生存情况进行了分析,26名EC阴性与35名EC阳性病人的生存时间资料如下,试计算两组病人的生存率。26名EC阴性患者观察期内全部死亡,其生存月数分别为:0.3,1,2,2,3,3,4,4,4,4,6,6,6,7,7,7,7,8,8,11,12,12,14,18,21,2435名EC阳性患者观察期内28人死亡,另外6人生存时间为截尾值。生存月数分别为:4,4,4,5,5,8,9,9,9,10,11,12,12,12,12+,13,14,16,16,17,19,20,20,22,23+,24,24+,26,26,30+,32,36,36+,36+以35名阳性患者的生存率计算过程为例,见下表。,计算步骤*,病人按生存时间由小到大依次排列并编秩。计数各时段开始观察时的病例数,如第三列。写出各时段的死亡例数,截尾值因患病没有死,所以都是0计算。计算各时段的死亡概率q,得第五列。按式 p=1-q 计算各时段的生存概率,得第六列,6.计算病人从观察开始活过各时点t的生存率S(t)。从观察开始至某时点的生存率为此前各阶段的生存概率的连乘积,按式,第一行的生存率S(T4)=P1=32/35=0.914286第二行的生存率S(T5)=P1P2=32/3530/32=0.857143,7.计算各生存率的标准误。说明抽样误差的大小,式中n为样本含量,i为秩次,,表8.Kaplan-meier法计算生存率,0.857143,如第二行和第九行,有截尾值时(12+),计算sp(T13)时不累计1/(n-15)(n-15+1),表8.Kaplan-meier法计算生存率,0.857143,小样本生存分析 Kaplan-Meier方法在SPSS中的实现,生存状态:1死亡,0截尾,SPSS 软件实现方法,FileOpen相应数据文件Analyze SurvivalKaplan-Meier Time(时间)Status Define event single value(1)Continue OK,63,65,2.寿命表法(Life table method),简称LT法。基本思想:随访时间划分成若干个时间区间,t时刻的生存率为t时刻前各时间区间生存概率的乘积。应用条件:数据已总结成若干时段的频数表形式,或样本量较大。,例1:某临床试验对20名第III或第IV期黑色素瘤的患者进行随访研究,截至研究期结束,记录的生存资料见下表,试计算100周的生存率。,(大样本),2.寿命表法(Life table method),表1.20名第III或第IV期黑色素瘤的患者的治疗后的生存时间(周),建立数据文件“生存分析.sav”定义两个变量:反应变量,即生存时间变量,“time”分类变量,即生存状态变量,“status”,AnalyzeSurvivalLife Tables.,71,本例题的100周生存率为53%,三、生存过程的比较(假设检验),非参数方法:对数秩检验(log-rank test)广义Wilcoxon检验 似然比(Likelihood ratio)检验,生存率组间比较实际上是对两条或多条生存曲线的分布情况比较(齐性检验),参数法要求生存时间已知服从于某种概率分布;非参数法对资料的分布没有要求,适用面比较广。,例题:22例非小细胞肺癌患者在不同日期经随机化分配到放疗组和放化疗联合组,从缓解出院日开始随访,随访时间(月)见下表,试比较放疗和放化疗联合两种治疗方案的生存率曲线有无差别。甲(放疗组):1,2,3,5,6,9+,11,13,16,26,37+乙(放化疗联合组):10,11+,14,18,22,22,26,32,38,40+,42+,选择检验方法,Log-rank test,假设检验,77,