SPSS大数据分析报告地统计方法选择.doc
《SPSS大数据分析报告地统计方法选择.doc》由会员分享,可在线阅读,更多相关《SPSS大数据分析报告地统计方法选择.doc(18页珍藏版)》请在课桌文档上搜索。
1、数据分析的统计方法选择小结目 录数据分析的统计方法选择小结1目录1资料12完全随机分组设计的资料2配对设计或随机区组设计3变量之间的关联性分析4资料25555662分类资料662.2 2C表或R2表资料的统计分析72.3 RC表资料的统计分析72.4 配对分类资料的统计分析8资料38一、两个变量之间的关联性分析8二、回归分析9资料49一统计方法抉择的条件91分析目的102资料类型103设计方法114分布特征与数理统计条件12二数据资料的描述121数值变量资料的描述132分类变量资料的描述13三数据资料的比拟141假设检验的根本步骤142假设检验结论的两类错误143假设检验的须知事项154常用假
2、设检验方法16四变量间的相关分析171数值变量计量资料的关系分析172无序分类变量计数资料的相关分析183有序分类变量等级资料等级相关18资料1完全随机分组设计的资料一、 两组或多组计量资料的比拟1. 两组资料:1) 大样本资料或服从正态分布的小样本资料(1) 假如方差齐性,如此作成组t检验(2) 假如方差不齐,如此作t检验或用成组的Wilcoxon秩和检验2) 小样本偏态分布资料,如此用成组的Wilcoxon秩和检验2. 多组资料:1) 假如大样本资料或服从正态分布,并且方差齐性,如此作完全随机的方差分析。如果方差分析的统计检验为有统计学意义,如此进一步作统计分析:选择适宜的方法如:LSD检
3、验,Bonferroni检验等进展两两比拟。2) 如果小样本的偏态分布资料或方差不齐,如此作Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义,如此进一步作统计分析:选择适宜的方法如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等进展两两比拟。二、 分类资料的统计分析1. 单样本资料与总体比拟1) 二分类资料:(1) 小样本时:用二项分布进展确切概率法检验;(2) 大样本时:用U检验。2) 多分类资料:用Pearson c2检验又称拟合优度检验。2. 四格表资料1) n40并且所以理论数大于5,如此用Pearson c22
4、) n40并且所以理论数大于1并且至少存在一个理论数5,如此用校正 c2或用Fishers 确切概率法检验3) n40或存在理论数40并且理论数小于5的格子数行列表中格子总数的25%,如此用Fishers 确切概率法检验4. RC表资料的统计分析1) 列变量为效应指标,并且为有序多分类变量,行变量为分组变量,如此CMH c2或Kruskal Wallis的秩和检验2) 列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c23) 列变量和行变量均为有序多分类变量,可以作Spearman相关分析4) 列变量和行变
5、量均为无序多分类变量,(1) n40并且理论数小于5的格子数行列表中格子总数的25%,如此用Fishers 确切概率法检验三、 Poisson分布资料1. 单样本资料与总体比拟:1) 观察值较小时:用确切概率法进展检验。2) 观察值较大时:用正态近似的U检验。2. 两个样本比拟:用正态近似的U检验。配对设计或随机区组设计四、 两组或多组计量资料的比拟1. 两组资料:1) 大样本资料或配对差值服从正态分布的小样本资料,作配对t检验2) 小样本并且差值呈偏态分布资料,如此用Wilcoxon的符号配对秩检验2. 多组资料:1) 假如大样本资料或残差服从正态分布,并且方差齐性,如此作随机区组的方差分析
6、。如果方差分析的统计检验为有统计学意义,如此进一步作统计分析:选择适宜的方法如:LSD检验,Bonferroni检验等进展两两比拟。2) 如果小样本时,差值呈偏态分布资料或方差不齐,如此作Fredman的统计检验。如果Fredman的统计检验为有统计学意义,如此进一步作统计分析:选择适宜的方法如:用Wilcoxon的符号配对秩检验,但用Bonferroni方法校正P值等进展两两比拟。五、 分类资料的统计分析1. 四格表资料1) b+c40,如此用Memar配对 c2检验或配对边际c2检验2) b+c40,如此用二项分布确切概率法检验2. CC表资料:1) 配比照拟:用Memar配对 c2检验或
7、配对边际c2检验2) 一致性问题Agreement:用Kap检验变量之间的关联性分析六、 两个变量之间的关联性分析1. 两个变量均为连续型变量1) 小样本并且两个变量服从双正态分布,如此用Pearson相关系数做统计分析2) 大样本或两个变量不服从双正态分布,如此用Spearman相关系数进展统计分析2. 两个变量均为有序分类变量,可以用Spearman相关系数进展统计分析3. 一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进展统计分析七、 回归分析1. 直线回归:如果回归分析中的残差服从正态分布大样本时无需正态性,残差与自变量无趋势变化,如此直线回归单个自变量
8、的线性回归,称为简单回归,否如此应作适当的变换,使其满足上述条件。2. 多重线性回归:应变量Y为连续型变量即计量资料,自变量X1,X2,Xp可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布大样本时无需正态性,残差与自变量无趋势变化,可以作多重线性回归。1) 观察性研究:可以用逐步线性回归寻找拟主要的影响因素2) 实验性研究:在保持主要研究因素变量干预变量外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用3. 二分类的Logistic回归:应变量为二分类变量,自变量X1,X2,Xp可以为连续型变量、有序分类变量或二分类变量。1) 非配对的
9、情况:用非条件Logistic回归(1) 观察性研究:可以用逐步线性回归寻找拟主要的影响因素(2) 实验性研究:在保持主要研究因素变量干预变量外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用2) 配对的情况:用条件Logistic回归(1) 观察性研究:可以用逐步线性回归寻找拟主要的影响因素(2) 实验性研究:在保持主要研究因素变量干预变量外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用4. 有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量X1,X2,Xp可以为连续型变量、有序分类变量或二分类变量。1) 观察性
10、研究:可以用逐步线性回归寻找拟主要的影响因素2) 实验性研究:在保持主要研究因素变量干预变量外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用5. 无序多分类有序的Logistic回归:应变量为无序多分类变量,自变量X1,X2,Xp可以为连续型变量、有序分类变量或二分类变量。1) 观察性研究:可以用逐步线性回归寻找拟主要的影响因素2) 实验性研究:在保持主要研究因素变量干预变量外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用八、 生存分析资料:要求资料记录结局和结局发生的时间,如:死亡和死亡发生的时间1. 用Kaplan-Meier
11、方法估计生存曲线2. 大样本时,可以寿命表方法估计3. 单因素可以用Logrank比拟两条或多条生存曲线4. 多个因素时,可以作多重的Cox回归1) 观察性研究:可以用逐步线性回归寻找拟主要的影响因素2) 实验性研究:在保持主要研究因素变量干预变量外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用资料21.1.1资料符合正态分布,且两组方差齐性,直接采用t检验。1可进展数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;2采用非参数检验,如Wilcoxon检验。1采用Satterthwate的t检验;2采用非参数检验,如Wilcoxon检验。1
12、.2.1两组差值服从正态分布,采用配对t检验。1.2.2两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,如此进一步作两两比拟,两两比拟的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。1.3.2资料不符合正态分布,或各组方差不齐,如此采用非参数检验的KruscalWallis法。如果检验结果为有统计学意义,如此进一步作两两比拟,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。1.4.1资料符合正态分布,且各组方差齐性
13、,直接采用随机区组的方差分析。如果检验结果为有统计学意义,如此进一步作两两比拟,两两比拟的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。1.4.2资料不符合正态分布,或各组方差不齐,如此采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,如此进一步作两两比拟,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。需要注意的问题:1一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。2 当进展多组比拟时,最容易犯的错误是仅比
14、拟其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比拟,如果总的来说差异有统计学意义,然后才能作其中任意两组的比拟,这些两两比拟有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确。3 关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差异。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。2分类资料2.1.1例数大于40,且所有理论数大于5,如此用普通的Pearson检验。2.1.2例数
15、大于40,所有理论数大于1,且至少一个理论数小于5,如此用校正的检验或Fishers确切概率法检验。2.1.3例数小于40,或有理论数小于2,如此用Fishers确切概率法检验。2.2 2C表或R2表资料的统计分析2.2.1列变量行变量均为无序分类变量,如此1例数大于40,且理论数小于5的格子数目总格子数目的25,如此用Fishers确切概率法检验。2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson检验只说明组间构成比不同,如要说明疗效,如此可用行平均分差检验或成组的Wilcoxon秩和检验。2.2.3列变量为效应指标,且为二分类变量,行变量为有序多分类变
16、量,如此可采用普通的Pearson检验比拟各组之间有无差异,如果总的来说有差异,还可进一步作两两比拟,以说明是否任意两组之间的差异都有统计学意义。2.3 RC表资料的统计分析2.3.1列变量行变量均为无序分类变量,如此1例数大于40,且理论数小于5的格子数目总格子数目的25,如此用Fishers确切概率法检验。3如果要作相关性分析,可采用Pearson相关系数。2.3.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson检验只说明组间构成比不同,如要说明疗效或强弱程度的不同,如此可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。2.3.3列变量为效
17、应指标,且为无序多分类变量,行变量为有序多分类变量,如此可采用普通的Pearson检验比拟各组之间有无差异,如果有差异,还可进一步作两两比拟,以说明是否任意两组之间的差异都有统计学意义。2.3.4列变量行变量均为有序多分类变量1如要做组间差异分析,如此可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。如果总的来说有差异,还可进一步作两两比拟,以说明是否任意两组之间的差异都有统计学意义。2如果要做两变量之间的相关性,可采用Spearson相关分析。2.4 配对分类资料的统计分析1bc40,如此用Memar配对检验。2bc40,如此用校正的配对检验。2.4.1 CC资料1配比照拟
18、:用Memar配对检验。2一致性检验,用Kappa检验。资料3在研究设计时, 统计方法的选择需考虑以下6个方面的问题: (1)看反响变量是单变量、 双变量还是多变量; (2)看单变量资料属于3种资料类型计量、 计数与等级资料中的哪一种; (3)看影响因素是单因素还是多因素; (4)看单样本、 两样本或多样本; (5)看是否是配对或配伍设计; (6)看是否满足检验方法所需的前提条件, 必要时可进展变量变换, 应用参数方法进展假设检验往往要求数据满足某些前提条件, 如两个独立样本比拟t检验或多个独立样本比拟的方差分析, 均要求方差齐性, 因此需要做方差齐性检验。如果要用正态分布法估计参考值X围,
19、首先要检验资料是否服从正态分布。在建立各种多重回归方程时, 常需检验变量间的多重共线性和残差分布的正态性。表1-1连续因变量分类因变量连续自变量回归分析Logistic回归分类自变量方差分析ANOVA)表格检验比如卡方检验不同的统计分析方法都有其各自的应用条件和适用X围。实际应用时, 必须根据研究目的、 资料的性质以与所要分析的具体内容等选择适当的统计分析方法, 切忌只关心p值的大小是否0.05, 而忽略统计分析方法的应用条件和适用X围。一、两个变量之间的关联性分析1)小样本并且两个变量服从双正态分布,如此用Pearson相关系数做统计分析2)大样本或两个变量不服从双正态分布,如此用Spear
20、man相关系数进展统计分析2.两个变量均为有序分类变量,可以用Spearman相关系数进展统计分析3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进展统计分析二、回归分析1.直线回归:如果回归分析中的残差服从正态分布大样本时无需正态性,残差与自变量无趋势变化,如此直线回归单个自变量的线性回归,称为简单回归,否如此应作适当的变换,使其满足上述条件。2.多重线性回归:应变量Y为连续型变量即计量资料,自变量X1,X2,Xp可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布大样本时无需正态性,残差与自变量无趋势变化,可以作多重线性回归。1)观
21、察性研究:可以用逐步线性回归寻找拟主要的影响因素2)实验性研究:在保持主要研究因素变量干预变量外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用3.二分类的Logistic回归:应变量为二分类变量,自变量X1,X2,Xp可以为连续型变量、有序分类变量或二分类变量。1)非配对的情况:用非条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找拟主要的影响因素(2)实验性研究:在保持主要研究因素变量干预变量外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用2)配对的情况:用条件Logistic回归(1)观察性研究:可以用逐步线性回
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 数据 分析 报告 统计 方法 选择
链接地址:https://www.desk33.com/p-15759.html