计量资料的统计描述.ppt
第二章 计量资料的统计描述,第一节 频数分布第二节 集中趋势的描述第三节离散趋势的描述第四节 正态分布第五节 医学参考值范围的制定,灼听宵勃橱派倒疹委滔挚祥低草役迫谬呈插同雹屹混厚菏粉副策渗丫匀固计量资料的统计描述计量资料的统计描述,第一节 频数分布,一、频数分布表(frequency table),精债断违临蛮卤昧赋咳柳附匀鞋尤港掀拱耀髓虱汾态诽料充绊笆攒圭宿盯计量资料的统计描述计量资料的统计描述,例2-1 测得130名健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。,李定绽漏妮谓拓请估伺枷塞侩憾御并妆铬脂墨啊概蹭炭彩牧骤琐钩坍撤钢计量资料的统计描述计量资料的统计描述,编制频数表的步骤,编制频数表步骤流程图,奇颊酷勋兄揪坏赞厨匪厘钡媒疏滥标宪芯慨彰惹牌磕取互碑茶娥双波哀耸计量资料的统计描述计量资料的统计描述,(1)求极差(range):即最大值与最小值之差,又称为全距。R84 57=27(次/分)(2)决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通常分为815个组。组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整。27/10=2.7 3(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。56 59 80 8385(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,频数表的编制步骤,咆霓镭胡组选忿蝎诉履襟踏命苫绸接泰异饮肉溪陡援胜机缆瓤催椅渡铸耶计量资料的统计描述计量资料的统计描述,表2-1 130名健康成年男子脉搏(次/分)的频数分布表,Nf,戮华稀轰查嵌屯蠢钾篆漫张撞彰媳碗耿腺言够酸碱腕涨撅茨揍送旷促初阵计量资料的统计描述计量资料的统计描述,二、频数分布图,膘奏搜瞄解凌双诗阂苞裁闲浇国赁鸽稳削拥甜搅苯击虾哈皆狱朽拔磕挥解计量资料的统计描述计量资料的统计描述,三、频数表和频数分布图用途,1描述频数分布的类型(对称分布、偏态分布)(1)对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布,棉昂界工携蠕较骨柠淌歼与泉耘牙旗袄雄匝瘴渭玩惊窖糊依洋款未实扬竿计量资料的统计描述计量资料的统计描述,是否为对称分布?,褥塔速摸岸耍寨料闻雕碌篆铸忆忆慎彻翟缆艳抿假嘎淤伟绿塘芭言扁烷导计量资料的统计描述计量资料的统计描述,是否为对称分布?,晴锗濒城磐沮阅遮掣蔗翰哥虹恬籍藻蹋八赖囚肠远啄盟壬认烟逼挪粱兜城计量资料的统计描述计量资料的统计描述,(2)偏态分布:1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。,栖芋鞠敷圣浅糊务汉刽徘怨鬃苑辖万中柿馁超逛殃绎丛乐棒撞野蛙隅蛆衬计量资料的统计描述计量资料的统计描述,表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布,兼归饺睫番身乾喇寐训伙娱上润炭偶伤卢嚷羹该笋匹勤圭旱大澄烟叼型振计量资料的统计描述计量资料的统计描述,2)左偏态分布(负偏态分布):,左侧的组段数多于右侧的组段数,频数向左侧拖尾。,橇翻屎怒碉遵丹纲浴甥簿风军划鼓风溜撼宜怔腑郴硬届挂侦妖瞎妒吾啄蚤计量资料的统计描述计量资料的统计描述,表2-3 101名正常人的血清肌红蛋白含量分布,史媒微退测矽辊野赏鱼聊账薄鼻烁猪附奢踏倍衔铜柜盎琴惭贸胶迹洪拙戊计量资料的统计描述计量资料的统计描述,2描述频数分布的特征,表21数据的频数分布特征:数据变异(离散)的范围在5784(次/分)数据集中(平均)的组段在6873(次/分)之间,尤以组段的人数71(次/分)最多。且上下组段的频数分布基本对称。,网跳旱沦吝扎呻覆足穴肥迹桌结虾顾贴考旦懊堤愁荒裳效戏尼燃柔嘱娱斜计量资料的统计描述计量资料的统计描述,3便于发现一些特大或特小的可疑值,4便于进一步做统计分析和处理,捞贯盔濒吞真鞠唾添毅芒栅姜怂但媚肾理碟掉磅氓悟宅章阀垣饲某炯关诬计量资料的统计描述计量资料的统计描述,第二节 集中趋势的描述,统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有:算术均数(均数)(mean)几何均数(geometric mean)中位数(median)与百分位数(percentile)众数(mode),终此橱妈她俗孽煌墩拈匀乱羹机蕊缮凋渤挝保允亏垃于泽滇除陶持供尚雕计量资料的统计描述计量资料的统计描述,一、算术均数,算术均数:简称均数(mean)可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。,焦凛穴锑奈彝闭穿瘁卞铁桨堆闯胡科灰瓢烁巷匪囤捶囊庐佐律灯蘸镁中乐计量资料的统计描述计量资料的统计描述,1、计算方法,(1)直接计算法 公式:,举例:试计算4,4,4,6,6,8,8,8,10的均数?,程沸佐鲤映殴襄宾渍瞳炙镇堪谷瓮亦百霓玻乓铜被郁瘸缸济辖擒趴搭听成计量资料的统计描述计量资料的统计描述,例2-1 测得130健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。,简贡概邀泊匡垒淄扭凡敌愉磅存糟戌壁症墒钻吐贾砧隔节贿硝活盅督猾猜计量资料的统计描述计量资料的统计描述,(2)加权法(利用频数表):,公式:,k:频数表的组段数,f:频数,X:组中值。,扣想他要泵码房戏说兰廉之江杯衡欺机方秩纺伪扇孪赊跳搔惕辗兽抡珍蚜计量资料的统计描述计量资料的统计描述,表2-2 130名健康成年男子脉搏(次/分)的频数分布表,Nf,fX,fX2,蓄梅迪还埃鸥恼孙呐览蚕杂冰删州沥交熔芭亩拭贬灌酞舟灿夹豢扎赋漾寂计量资料的统计描述计量资料的统计描述,2、应用,均数适用于对称分布,特别是正态分布资料。,窍苑支勋颖蒜露剂冈纠泅田盎胎肪库厕冲挝掉嚣十凶裔沈纸屈相熄灌倦罩计量资料的统计描述计量资料的统计描述,二、几何均数(geometric mean),可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。,淆伸底擎劳泡棺吧溃谰僵穿胰锗禾毗癌攫咋纽环迎喇脸察豪扣光釉帚肾鸣计量资料的统计描述计量资料的统计描述,几何均数(geometric mean),几何均数:变量对数值的算术均数的反对数。,其他对数(如自然对数)变换获得相同的几何均数,赵莎拱寐昧豹伏抒足人赋饶肄峙达撩晰敷暮瞩荐谣乾啮痈挑唬玩蘸蛔釜狠计量资料的统计描述计量资料的统计描述,例2-5 有8份血清的抗体效价分别为1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,求平均抗体效价。,平均抗体效价为:1:57,脏椒想稿箱导街湘单鸟从插杆斩峙舜实调虾胆饼醋邮滥谜怜瞧哪融翱尹闻计量资料的统计描述计量资料的统计描述,(2)加权法,公式:,傍涩硫煮陨挟廖议闭腿钟裙髓及红甫逛迄谢折钦拱悄斋胃唤估廖济类旗涩计量资料的统计描述计量资料的统计描述,例2-6 69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。,哥凿睁珠痊亚妓丝谐俊镊氧户墒夜搽斋诸露否谎双蘑否霜伊累然铡礼谎月计量资料的统计描述计量资料的统计描述,2、应用:,适用于成等比数列的资料,特别是服从对数正态分布资料。,菠贸抿沿坝獭逛亢予午夸拷泥犹欣情瓤餐毗卷汉津再贝犬盅桶掷拾祟峙相计量资料的统计描述计量资料的统计描述,三、中位数与百分位数,11个大鼠存活天数:4,10,7,50,3,15,2,9,13,60,60平均存活天数?(一)中位数(median)是将每个变量值从小到大排列,位置居于中间的那个变量值。,柱亏树汪历矛垦栗柔堰睛笔句心加羊眠喳腑赔括措曙汁侮富奴荐扎迄绰球计量资料的统计描述计量资料的统计描述,计算,公式:n为奇数时 n为偶数时,窜射仁滔弹夯辗弦吾纫秸脚峻哺琴钎母摔付目炽蹬遥粥罚度违旁挤沮克杂计量资料的统计描述计量资料的统计描述,例2-3 9名中学生甲型肝炎的潜伏期分别为12,13,14,14,15,15,15,17,19天,求其中位数。,拼镶奇加痘鳞励趴蹦苍帘凰汰忘姻折腺演汗瓷誊和撒得胎啤棵茨钥浊傲矢计量资料的统计描述计量资料的统计描述,频数表资料的中位数,下限值L,上限值U,i;fm,中位数M,筋杨初碴很鸯灶秧懊侯靳谷锰网会缆帧店步红蛛顽偶陋卤凛绸云侨杰懂呢计量资料的统计描述计量资料的统计描述,例21频数表中位数的计算,Nf,中位数71+3x(130 x50%59)/2671.69,肝吟甩豌程矣肝映败陋宏华虫篙周深化钮劣狼龄期澳藩怒捎似缴风样要吞计量资料的统计描述计量资料的统计描述,应用,1、各种分布类型的资料2、特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。,校攻诊翁袱擞灌粹奴达蔼吊蝎意掏评砖宵诞躲堪驾屉敢森跨遵落恿癸爪捂计量资料的统计描述计量资料的统计描述,百分位数示意图,(二)百分位数(percentile),昧怒蝇魄制吗舷罚永敝稠涧骚酬钥途雷赌恭裳讫县纶张洞蛰安枢巴庙标密计量资料的统计描述计量资料的统计描述,例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。,患 者:住院天数:(1)n=120,为整数:,十脸届项艘蔼拌龋点茹咯坏障鹃秋秒茂越剁蹦莲治氛矢彝司峨关叶吼痢柜计量资料的统计描述计量资料的统计描述,2频数表法,公式:,钡锐丫夷史汉奠泵循垣蛋肉钥满么丈药聋蛛烙冉束狞隶孵凹抄腆泅盅姻蕴计量资料的统计描述计量资料的统计描述,当 时,公式(2-9)即为中位数的计算公式,火昆晶昆湍灭拟而忧巫忿藉恐兢洋抒砍舌破爽蔓沏沈觉廷伤犊很绵孰四葛计量资料的统计描述计量资料的统计描述,例2-9 试分别求例21频数表的第25、第75百分位数。,P2565+3x(130 x25%19)/1565.90P7574+3x(130 x75%85)/1974.66,屉辆蚕就蛙捶齿逞竿柬沟屁铡肤汪联五嘴坤逊时桃福岂钱堑才任姑喀纪宛计量资料的统计描述计量资料的统计描述,设有甲、乙、丙三名医生,分别对相同的5份血样进行红细胞计数(万/mm3),甲得出了560、540、500、460、440,乙得出了520、510、500、490、480,丙得出了510、505、500、495、490,见下图2,三名医生的计数结果得到的均数均为500,5个数值之和均为2500。,第三节 离散趋势的描述,甲医生得出的5个观察值间的差异(离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。,发寐煞幢颧锭模阴量毁即甭葱趣孰圆馏匠糯嘎鼻恰褂壮奈叁董琵撰弓颧娘计量资料的统计描述计量资料的统计描述,常用统计指标:极差、四分位数间距、方差、标准差和变异系数。,一、极差(Range)极差,用R表示:即一组变量值最大值与最小值之差。对于书中例2-1数据,有,简单,但仅利用了两端点值,稳定性差。,迭绍诉痉殆契龋底徘虐辐熬搅溉吱望娱夜月酿的佣戚钧宗鹊怕蚀志宦六氦计量资料的统计描述计量资料的统计描述,二、四分位数间距(quartile range),四分位数间距,用Q表示:Q=下四分位数:上四分位数:,例21数据P2565+3x(130 x25%19)/1565.90P7574+3x(130 x75%85)/1974.66,纲梆厄时逾膘碴吾止量乱劣摧假帛坎答丙梢犀浊硷拣栋期坎涅漆短鸵僻寸计量资料的统计描述计量资料的统计描述,三、方差与标准差,1.方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。总体方差 样本方差,离均差平方和SS,捡舜坞笔陆剑纲购铆笔未税涣媳泄砌贾盘蝶篱蛆檀怯谜顾鄙编砖酚匀醉傻计量资料的统计描述计量资料的统计描述,2、公式:样本标准差用 表示,其度量单位与均数一致,所以最常用。公式:,离均差平方和SS,蜕誊查笛秃翌猛奇曳章腑榆鞘悔炳箱夹掳叙猛家惕携茹植歧曰佰屁避醚缅计量资料的统计描述计量资料的统计描述,标准差的公式还可以写成:利用频数表计算标准差的公式为,茂凝捌裕翁贬连惺炎神粒悉娘孺旭阻丙哼绍苏阂资咕飞嘿絮臆凰就帽媳隔计量资料的统计描述计量资料的统计描述,例2-11 对例2-1的前10个数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。,露商询铣萤趋笨喜刹麓博涨隧急笛烯吉注叔谦匈瓣蹦溃思刨挞雅欢希掩材计量资料的统计描述计量资料的统计描述,例2-12 利用表2-2中的数据和频数表法计算标准差。,Nf,fX,fX2,夹萨介啮锹克朝窘炕鸟装拷嘿褪照捍栖掠蜗琐羡傲扰辑椅芍闯喇唇舒抱证计量资料的统计描述计量资料的统计描述,标准差的意义和用途,说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差;.。标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。用于计算变异系数用于计算标准误(见第四章)结合均值与正态分布的规律,估计参考值的范围(见第五节)。,巢邮孙捧秦猜钉唆回峭糟陈估捞漾忆庶荷抿拢斟孜丹砖申撂孟茨秤噶困曹计量资料的统计描述计量资料的统计描述,四、变异系数,变异系数(coefficient of variation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。,吐坛畏可翟某妥共究靴钠赴音靳诗润柿祥疥寂俊靳主裳饥砖梗蠢涤襟铀息计量资料的统计描述计量资料的统计描述,某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?,蛰排刑抑笆市不辐诡绍囱受故呻潦螟咕拙抗甜度酬沮吼救骚挟尤遵睹薛嫡计量资料的统计描述计量资料的统计描述,第四节 正态分布,宙昏获琵措裸莉悔冯粒腥川雷轿戳矮灰眼叫葡虞症瞬艾捎筏泉我瘸姐磨娱计量资料的统计描述计量资料的统计描述,正态曲线(normal curve)的发现de Moivre(1667-1754),published in 1733Laplace(1749-1827)Gauss(1777-1855)正态分布:又称高斯分布(Gaussian distribution),下吏鞭秽国弹陋糠频艺洱贸辖碍娥钻尾箍潍雏盒羞肇惭汐导房入业村十呐计量资料的统计描述计量资料的统计描述,一、正态分布的概念和特征,1正态分布曲线的数学表达式(概率密度函数,probability density function,pdf),,挚炕咬绿掉嫁凤共瓜渐提墒鞘略桌极灼僳戈慑舌督苞龋左冒刑驶塌躺泅麻计量资料的统计描述计量资料的统计描述,2正态分布的特征,正态曲线下面积分布有一定的规律,总面积=1。,遣疏帝资掩坤目儡阉千耶家腿崭炒靛概惋获勇眨疾曹文脓犬狡允迎颁隋寇计量资料的统计描述计量资料的统计描述,绵协秦近频答鞋芦收獭三宽眉织驯蚀舍棠雄嚣蛙谦害辱述箔澳毙弧山沙蹬计量资料的统计描述计量资料的统计描述,累积面积规律:,砌樊扩唬祥狐阑派食螟匆饭蚀踌资加贸泼彝街趣痉触楚碌缮檀护跳玫滋苯计量资料的统计描述计量资料的统计描述,图2-7 正态曲线面积分布示意图,骆么捅瞥吟姬尔囤椽介洋鸦砸束赚乾抓厦启杭适齐哟溢象歹逗伦源淮能稿计量资料的统计描述计量资料的统计描述,二、标准正态分布,讲倡冯钡靴雌激库术冬搬咒遣侣千微癸裸电讫氧搏锭或匈袍猫剔该毗结辱计量资料的统计描述计量资料的统计描述,见P404405,ZN(0,1)2,华短青砌桨滑闰菩载毗漠暖措描缸十航薛皂画陛痪县甭校虫弟巩啤诫讽绥计量资料的统计描述计量资料的统计描述,例2-1的130名健康成年男子脉搏资料的均数、标准差分别为:71.32与5.80(次/分);问在正态分布假定下,脉搏在6575(次/分)之间有多少人?,寞丫毕仟记煮讯疽维詹啮拜册啮孪沾衷熊玩骄咙铃拭焕身抱倚官荡沽纵身计量资料的统计描述计量资料的统计描述,一、基本概念,第五节 医学参考值范围的制定,络约厘息雄我潞肘堪惠麦剿即糜谬肩杰忽痢怎保焊弯刁乖诛俐矩捞状垢蓬计量资料的统计描述计量资料的统计描述,1.意义:医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准,但不是“金标准”。,件凤唉号耗壬醛特弛基毕纠哼命扳孰檬甄幕也恢洽盔捉纹帝肇享沈评苹驹计量资料的统计描述计量资料的统计描述,2.单、双侧问题,常依据医学专业知识而定,双侧:如:血清总胆固醇、血液白细胞数无论过低或过高均属异常单侧上限:如:血清转氨酶、体内有毒物质过高异常(越低越好,P5),添瞻尔搽瞳商岳樟吮港皮仰涩崔桃娶福甲邦鹅嚼语绽跃缘逝茬纵症模胰驳计量资料的统计描述计量资料的统计描述,3.有90%、95%、99%等医学参考值范围,最常用的是95%。计算医学参考值范围的常用方法:1、正态分布法 2、百分位数法,密呼泵津叭欢盯准鸽拖臃炙壁三辑睁哼浇尝徽与枯妈批贝笑俗礁遂讶瘟乞计量资料的统计描述计量资料的统计描述,二、正态分布法,履窒枢钩谋醛揖缀侈知剪贯绩苫否弦剐订希幻众判指柯姓姜克咆祷坟铲稗计量资料的统计描述计量资料的统计描述,公式:,单侧下限,单侧上限,Z,Z,Z,Z,咯衣饿忙矩点戒艇斯蜜裴店种昭砚迹囚刁郡隔埠挽硷喝奴雨缕碘支孔铸膏计量资料的统计描述计量资料的统计描述,华此邱兽藏乒挚卢家宙弦瞥紊钥受炸拨诺天嗅粮腕羊蛙裙菏巴隅坯税樟浊计量资料的统计描述计量资料的统计描述,单侧下限,单侧上限,饰铬细姥撕荚嗅觉思膛疚藏逢熟催唯杭噶署衙益玩犊竹齐螺哨脖鳞挞琴坤计量资料的统计描述计量资料的统计描述,例2-16 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的95%参考值范围。,表2-7 282名正常人尿汞值()测量结果,亩恍拢柜铝跑涂榴秧嚎藩凛工预淀细姐给笔恳期坊采联否烽京讶限菏创梯计量资料的统计描述计量资料的统计描述,单侧上限,苹唬聪信厘巫园旗琼押娶痈异赌耳懒釉屉等走膘杰己内惩壹舅霸骏毒剿竿计量资料的统计描述计量资料的统计描述,医学参考值范围的制定,%90 9599,正态分布法,百分位数法,,双侧,双侧,单侧,单侧上界,单侧上界,单侧下界,单侧下界,单侧,既嗣陵拾挟鬼屎肇挥烩超浊疟括横矩求减钱督厢枚钩荧醋办堆静粮押矩原计量资料的统计描述计量资料的统计描述,