《生物统计学十四.ppt》由会员分享,可在线阅读,更多相关《生物统计学十四.ppt(59页珍藏版)》请在课桌文档上搜索。
1、,因果关系:回归分析平行关系:相关分析,四、直线回归的区间估计,当直线回归关系显著之后,既可用样本统计数a、b来估计总体参数、,又可利用回归方程去估计某一x值对应y总体的平均数和预测单个y值所在的区间。,(一)回归截距和回归系数的置信区间,回归截距a的方差为:,回归截距a的标准误 和t值为:,总体回归截距a的置信区间为:,总体回归系数的置信区间为:,P141 例7.5,(二)的置信区间和单个y的预测区间 由,故 的标准误为:条件总体平均数 的95%置信区间为:L1=-t 0.05,L2=+t0.05,单个y值的标准误为:,保证概率为0.95的y 的预测区间为:L1=-t0.05,L2=+t0.
2、05,P142例7.6,(三)和单个y观测值置信区间图示 首先取若干个等距的x 值(x 取值愈密,作图愈准确),算得与其相应的、和、的值;然后再由 和 算得各x上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。,试制作例1资料的y估计值包括和y在内有95%可靠度的置信区间图。表2 例1资料的置信区间和y的预测区间的计算,(2),(3),(4),(6),(7),(8),,,一代三化螟盛发期估计及其 95%置信限 画出 的图像,依次标出(x,L1)和(x,L2)坐标点,再连接各(x,L1)得 线,连接各(x,L2)得 线。连接各(x,L2)得 线。和 所夹的区间即包括 在内有95可
3、靠度的置信区间。称(x,)的连线,(x,)的连线。其所夹的区间即为y的95的预测区间或预测带。3月下至4月中旬平均温度累积值 例1资料的y 估计值及其95%置信带,五、直线回归的应用及注意问题,(一)直线回归的应用(二)应用直线回归时的注意问题,第三节 直线相关,一、相关系数和决定系数二、相关系数的假设测验三、相关系数的区间估计四、应用直线相关的注意事项,一、相关系数和决定系数,(一)相关系数(X,Y)总体没有相关,则落在象限、的点是均匀分散的,因而正负相消,=0。,当(X,Y)总体呈正相关时,落在象限、的点一定比落在象限、的多,故 一定为正;同时落在象限、的点所占的比率愈大,此正值也愈大。,
4、当(X,Y)总体呈负相关时,则落在象限、的点一定比落在象限、的为多,故 一定为负;且落在象限、的点所占的比率愈大,此负值的绝对值也愈大。,的值可用来度量两个变数直线相关的相关程度和性质。但是,x和y 的变异程度、所取单位及N的大小都会影响其大小。这些因素的影响是可以消去的。方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以N 除之。,可定义双变数总体的相关系数为:上式中的已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。相关系数是两个变数标准化离差的乘积之和的平均数。,样本的相关系数 r 因为:在回归分析时分成了
5、两个部分:一部分是离回归平方和Q,另一部分是回归平方和U=(SP)2/SSx。因此,又可有定义:,r 的取值区间是-1,1。双变数的相关程度决定于|r|,|r|越接近于1,相关越密切;越接近于0,越可能无相关。r 的显著与否还和自由度有关,df越大,受抽样误差的影响越小,r 达到显著水平的值就较小。正的r 值表示正相关,负的r 值表示负相关。而相关系数r的正或负和回归系数b是保持一致。,决定系数,决定系数(determination coefficient)定义为由x不同而引起的y 的平方和 占y总平方和SSy=的比率;也可定义为由y不同而引起的x 的平方和 占x总平方和SSx=的比率,其值为
6、:,所以决定系数即相关系数r 的平方值。决定系数和相关系数的区别在于:除掉|r|=1和0的情况外,r2总是小于|r|。这就可以防止对相关系数所表示的相关程度作夸张的解释。例如,r=0.5,只是说明由x 的不同而引起的y 变异(或由y 的不同而引起的x 变异)平方和仅占y 总变异(或 x 总变异),平方和的r2=0.25,即25%,而不是50%。r 是可正可负的,而r2则一律取正值,其取值区间为0,1。因此,在相关分析由r 的正或负表示相关的性质,由r2 的大小表示相关的程度。相关系数和决定系数的计算P146 例7.8,一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4
7、月中旬旬平均温度累积值(x,旬度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表7.1。试计算其直线回归方程。,表7.1 累积温和一代三化螟盛发期的关系,n=9,=35.5+34.1+44.2=333.7,=35.52+34.12+44.22=12517.49,=12+16+(-1)=70,=122+162+(-1)2=794,=(35.512)+(34.116)+44.2(-1)=2436.4,首先由表7.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据):,SSx=,=12517.49-(333.7)2/9=144.6356,=794-(70)2/9=249.
8、5556,2436.4-(333.770)/9=-159.0444,333.7/9=37.0778,70/9=7.7778,*SSy=,SP=,因而有:b=,-159.0444/144.6356=-1.0996天/(旬度),a=7.7778-(-1.099637.0778)=48.5485(天),然后,由一级数据算得5个二级数据:,故得表7.1资料的回归方程为:上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时,=48.5;因y是以5月10日为0,故48.5为6
9、月2728日)。由于x变数的实测区间为31.7,44.2,当x31.7或44.2时,y的变化是否还符合=48.5-1.1x的规律,观察数据中未曾得到任何信息。,=48.5485-1.0996x,二、相关系数的假设测验,(一)的假设测验测验一个样本相关系数 r 所来自的总体相关系数是否为0,所作的假设为H0:对HA:0。在的总体中抽样,r的分布随样本容量n的不同而不同。r的抽样误差:,当 时:或 此 t 值遵循df=n-2的t分布,由之可测验 H0:。对于同一资料,线性回归的显著性等价于线性相关的显著性。将上式移项,即可得到自由度和显著水平一定时的临界 r 值:,=,P136 例7.9,三、相关
10、系数的区间估计,P137 例7.10,四、应用直线相关的注意事项,1、直线相关分析时对变量的要求2、相关系数应进行检验3、变量应尽可能多4、正确理解相关系数的含义,直线回归与相关的内在关系回归与相关间的内在联系:(1)相关系数是标准化的回归系数回归系数b是有单位的,但若对b作消去单位的标准化处理,即对b中x和y的离均差以各自的标准差sx和sy为单位,则有:,所以,有时把相关系数称为标准回归系数。(2)相关系数r是y依x的回归系数by/x和x依y的回归系数bx/y的几何平均数。若对同一资料计算x 依y 的回归,则有bx/y=SP/SSy,因此,(3)线性回归方程也可用相关系数表示,因为,所以由(
11、94)表示的回归方程可改写成:,(4)线性回归和离回归的平方和也可用相关系数表示。,直线回归和相关的应用要点(1)回归和相关分析要有学科专业知识作指导。(2)要严格控制研究对象(X 和Y)以外的有关因素,即要在 X 和Y 的变化过程中尽量使其它因素保持稳定一致。(3)直线回归和相关分析结果不显著,并不意味着X和Y 没有关系,而只说明X 和Y 没有显著的线性关系,它并不能排除两变数间存在曲线关系的可能性。(4)一个显著的r 或b 并不代表X 和Y 的关系就一定,是线性的,因为它并不排斥能够更好地描述X 和Y 的各种曲线的存在。(5)在X 和Y 的一定区间内,用线性关系作近似描述是允许的,它的精确
12、度至少要比仅用描述y变数有显著提高。(6)一个显著的相关或回归并不一定具有实践上的预测意义。(7)为了提高回归和相关分析的准确性,两个变数的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。,Excel在计算平均数、求和、最大值、最小值时的应用Excel 在频率分布中的应用:frequency函数,Excel在二项分布中的应用:函数BINOMDIST BINOMDIST 的函数可以计算出二项分布的概率以及累积概率。BINOMDIST 函数可以带四个参数,各参数的含义分别是:实验成功的次数,实验的总次数,每次实验中成功的概率,是否计算累积概率。第四个参数是一个逻辑值,如果为TRUE,函数
13、BINOMDIST 返回累积分布函数,如果为FALSE,返回概率密度函数。,二、其它分布的函数(一)函数CRITBINOM:1说明:函数CRITBINOM 可称为BINOMDIST 的逆向函数,它返回使累积二项式分布概率P(X=x)大于等于临界概率值的最小值。2语法:CRITBINOM(trials,probability_s,alpha)Trials:贝努利实验次数。Probability_s:一次试验中成功的概率。Alpha:临界概率。3举例:CRITBINOM(6,0.5,0.75)等于4,表明如果每次试验成功的概率为0.5,那么6 次试验中成功的次数小于等于4 的概率恰好超过或等于0.
14、75。,(二)函数HYPGEOMDIST:1说明:函数HYPGEOMDIST 返回超几何分布。给定样本容量、总体容量和样本总体中成功的次数,函数HYPGEOMDIST 返回样本取得给定成功次数的概率。使用函数HYPGEOMDIST 可以解决有限总体的问题,其中每个观察值或者为成功或者为失败,且给定样本区间的所有子集有相等的发生概率。2.语法:HYPGEOMDIST(sample_s,number_sample,population_s,number_population)Sample_s:样本中成功的次数。Number_sample:样本容量。Population_s:样本总体中成功的次数。N
15、umber_population:样本总体的容量。3.举例:容器里有20 块巧克力,8 块是焦糖的,其余12 块是果仁的。如果从中随机选出4 块,下面函数计算式计算出只有一块是焦糖巧克力的概率:HYPGEOMDIST(1,4,8,20)=0.363261。,(三)函数NEGBINOMDIST:1说明:函数NEGBINOMDIST 返回负二项式分布。当每次试验成功概率固时,函数NEGBINOMDIST 返回在到达指定次数成功之前,出现n 次失败的概率。此函数与二项式分布相似,只是它的成功次数固定,试验总数为变量。与二项分布类似的是,试验次数被假设为自变量。2 语法:NEGBINOMDIST(nu
16、mber_f,number_s,probability_s)Number_f:失败次数。Number_s:成功的临界次数。Probability_s:成功的概率。3 举例:例如,如果要找出5 个反应敏捷的人,且已知具有这种特征的候选人的概率为0.3。以下公式将计算出在找到5 个合格候选人之前,需要面试10 个候选人的概率:NEGBINOMDIST(10,5,0.3)=0.06871,(四)函数POISSON:1说明:函数POISSON 返回泊松分布。泊松分布通常用于预测一段时间内事件发生指定次数的概率,比如一分钟内通过收费站的轿车的数量为n 的概率。2语法:POISSON(x,mean,cum
17、ulative)X:事件数。Mean:期望值。Cumulative:为一逻辑值,确定所返回的概率分布形式。如果cumulative 为TRUE,函数POISSON 返回累积分布函数,即,随机事件发生的次数在0 和x 之间(包含0 和1);如果为FALSE,则返回概率密度函数,即,随机事件发生的次数恰好为x。3举例:POISSON(2,5,FALSE)=0.084224 表明,若某一收费站每分种通过的轿车平均数量为5 辆,那么某一分钟通只2 辆的概率为0.084224。,(五)正态分布函数NORMDIST:1说明:正态分布在模拟现实世界过程和描述随机样本平均值的不确定度时有广泛的用途。函数NOR
18、MDIST 返回给定平均值和标准偏差的正态分布的累积函数。同样可以用类似“七”中的方法,利用NORMDIST 函数建立正态分布密度函数图,这里不再赘述。2.语法:NORMDIST(x,mean,standard_dev,cumulative)X:为需要计算其分布的数值。Mean:分布的算术平均值。Standard_dev:分布的标准偏差。Cumulative:为一逻辑值,指明函数的形式。如果cumulative 为TRUE,函数NORMDIST 返回累积分布函数;如果为FALSE,返回概率密度函数。3举例:例如,公式NORMDIST(6,5,2,0)返回平均值为5、标准差为2的正态函数当X=6
19、 时概率密度函数的数值,公式NORMDIST(60,50,4,1)返回平均值为50、标准差为4 的正态分布函数当X=60 时累积分布函数的数值。,(六)函数NORMSDIST:1说明:函数NORMSDIST 返回标准正态分布的累积函数。2 语法:NORMSDIST(z)Z 为需要计算其分布的数值。3举例:NORMSDIST(0)=0.5(七)函数NORMSINV:1说明:函数NORMSINV 返回标准正态分布累积函数的逆函数。2 语法:NORMSINV(probability)Probability:正态分布的概率值。3举例:NORMSINV(0.5)=0,(八)t 分布函数TDIST:1说明
20、:函数TDIST 返回student 的t 分布数值。T 分布用于小样本数据集合的假设检验。使用此函数可以代替t 分布的临界值表。2语法:TDIST(x,degrees_freedom,tails)X:为需要计算分布的数字。Degrees_freedom:为表示自由度的整数。Tails:指明返回的分布函数是单尾分布还是双尾分布。如果tails=1,函数TDIST 返回单尾分布。如果tails=2,函数TDIST 返回双尾分布。3 举例:TDIST(1.96,60,2)=0.054645,随机抽样的工具简介:Excel 中的Rand()函数可以返回大于等于0 小于1 的均匀分布随机数,Rand(
21、)不带任何参数运行,每次计算时时都将返回一个新的数值。RAND()函数可以被用来作为不重复抽样调查的工具。,Excel在统计推断中的应用,怎么加载统计函数?Excel-工具-数据分析如果没有数据分析,则Excel-工具-加载宏-分析数据库-确定,大样本条件下,单一总体平均值的置信区间估计(总体方差未知),应用案例 2004年底北京市私家车拥有量已达129.8万辆,位居全国之首,据业内人士分析其中国产中低档汽车的比例较大,为了估计目前北京市场个人购车的平均价格,调查人员于某日在北京最大的车市随机调查抽取36位私人消费购车者,得到他们所购汽车的价格如EXCEL表A1-A36所示,单位(万元)对汽车
22、销售价格的总体均值求90%置信区间,利用EXCEL在大样本条件下进行单一总体均值的置信区间估计。,Excel-工具-数据分析-描述统计,在“输入区域”设置框内键入数据单元格区域A1:A36,在“输出区域”设置框键入数据单元格区域B1,并选择“汇总统计”,平均置信度选择“90%”,然后选择“确定”,此时样本均值出现在单元格C3中,标准误差出现在单元格C4根据 计算置信区间由于是双尾,且置信度为90%,u=1.645,大样本条件下,单一总体平均值的置信区间估计(总体方差已知),小样本条件下,单一总体平均值置信区间估计(用TINV函数,求得t值),从汽车价格调查的例子中取前26个数据Excel-工具
23、-数据分析-描述统计求出样本平均数和标准差TINV主要是可以不用查表求得t值带入区间估计公式计算,大样本条件下两个总体平均值之差的置信区间估计,2004年底很多类型的国产轿车价格都比年中有所下降,有关调查人员想对比某地区2004年第与年中私家购车族购车价格的差异,于是在年中新购车者中随机抽取32人,调查得到价格的数据如excel表中总结区间估计:利用描述统计功能计算出平均数和标准差,然后利用公式进行计算,假设检验,一:对单一总体均值进行检验,1、u检验。利用描述统计功能计算出平均数和标准差,进行u值计算,进行推断2、p值法,利用得到的u值和NORMSDIST函数,得到相应的P值。上例u=-2.19142,得P=0.0196,因为是双尾检验,所以需*2,依然小于0.05,拒绝假设,小样本条件下,求p值,Excel在单因素和二因素方差分析中的应用,点击左上角Office标志图标,Excel选项,加载项,在下面的管理下拉列表中选择“Excel加载项”,转到,勾选“分析工具库”,确定。,第1步:选择“工具”下拉菜单第2步:选择“数据分析”选项第3步:在分析工具中选择“单因素方差分析”,然后选择“确定”第4步:当对话框出现时 在“输入区域”方框内键入数据单元格区域 在方框内键入0.05(可根据需要确定)在“输出选项”中选择输出区域,
链接地址:https://www.desk33.com/p-259065.html