人群健康研究的统计学方法定量资料的统计描述、正态分布.ppt
定量资料的统计描述 集中趋势 离散趋势,对称分布 非对称分布 倍数变化 集中趋势 均数 中位数 几何均数 离散趋势 标准差 四分位数间距 对数标准差 变异系数,定量资料的描述,正态分布,正态分布的特点:1.单峰,钟形2.以均数为中心,两侧对称3.尾端不与横轴相交4.均数位置,标准差形状5.曲线下面积分布有特殊规律,表3.1 110名7岁男童身高频数实际分布与理论分布的比较,标准正态分布,例3.3例2.1中已得110名7岁男童身高,现欲估计该地1995年身高界于116.5cm 到119.0cm范围内的7岁男童比例及110名7岁男童中身高界于116.5119.0cm范围的人数。,正态分布的应用,临床参考值范围的制定,1.选取适当数量的“正常”人2.控制测量误差3.确定单、双侧4.确定适当的范围大小5.确定正确的统计方法正态分布法 百分位数法,统计分析统计描述 统计推断参数估计 假设检验,在大多数情况下,研究者并不知道总体的参数,而是在总体中随机抽取一定数量观察单位作为样本进行抽样研究(sampling study),通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断(statistical inference)。,抽样研究总体样本,抽样误差,在抽样研究中,抽样误差是不可避免的。,总体均数的估计点估计 区间估计,中心极限定理,数理统计推理和中心极限定理(central limit theorem)表明:从正态总体N(,)中,随机抽取例数为n的样本,样本均数 也服从正态分布;即使从偏态总体随机抽样,当n足够大时(如n50),也近似正态分布。,t 分布,图4.1 不同自由度下t分布图,例4.2 试求例4.1中该地1岁婴儿血红蛋白平均值95%的可信区间。本例n=25,S=11.9g/L,按式(4.2)算得样本均数的标准误为:(g/L)=n1=251=24,取双尾0.05,查附表2,t值表得。按式(4.4)得:即(118.79,128.61)g/L 故该地1岁婴儿血红蛋白平均值95%的可信区间为(118.79,128.61)g/L。,例4.4 某地抽得正常成人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计该地正常成人血清胆固醇均数的95%可信区间。本例n=20050,故采用正态近似的方法按式(4.7)计算可信区间。今=3.64,S=1.20,取双尾0.05得。即(3.47,3.81)mmolL 故该地正常成人血清胆固醇均数的95%可信区间为(3.47,3.81)mmolL。,