欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    中科大概率论与数理统计讲义04数理统计的基本概念及抽样分布.docx

    • 资源ID:393176       资源大小:90.89KB        全文页数:20页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    中科大概率论与数理统计讲义04数理统计的基本概念及抽样分布.docx

    第四章 数理统计的基本概念及抽样分布教学目的:1)使学生对什么叫数理统计及其发展史有一个初步的了解。2)使学生掌握数理统计的若干基本概念,如总体、样本、简单样本、统计模型等。3)使学生掌握统计量2、卜F、正态总体样本均值和样本方差的分布及其简单性质.?4.1引言什么叫数理统计学本课程的前四章介绍了概率论的基本内容,为数理统计学建立了重要的数学基础.从 本章起,我们转入本课程的第二部分一数理统计学.下面我们首先说明什么是数理统计 学.统计学的任务是研究怎样有效地收集、整理和分析带有随机性影响的数据,从而对 所考虑的问题作出一定结论的方法和理论.它是一门实用性很强的学科,在人类活动的 各个领域有着广泛的应用.研究统计学方法的理论基础问题的那一部分构成"数理统计 学”的内容.一般地可以认为数理统计是数学的一个分支,它是研究如何有效地收集和有效地使用带有随机性影 响的数据的一门学科.下面通过例子对此加以说明.1 .有效地收集数据收集数据的方法有:全面观察(或普查)、抽样调查和安排试验等方式.例4.1.1.人口普查和抽样调查.我国在2000年进行了第五次人口普查.如果普查的数 据是准确无误的,无随机性可言,不需用数理统计方法.由于人口普查,调查项目很多, 我国有13亿人口,普查工作量极大,而训练有素的工作人员缺乏.因此虽是全面调查,但 数据并不可靠,农村超计划生育瞒报、漏报人口的情况时有发生.针对普查数据不可靠, 国家统计局在人口普查的同时还派出专业人员对全国人口进行抽样调查,根据抽样调 查的结果,对人口普查的数字进行适当的修正.抽样调查在普查不可靠时是一种补充办 法.如何安排抽样调查,这是有效收集数据的重要问题,这构成数理统计学的一个重要 分支一抽样调查方法.例4.12考察某地区IOooO农户的经济状况.从中挑选10。户做抽样调查.若该地区分成 平原和山区两部分,平原地区较富,占该地区农户的7。,山区的3。农户较穷.我们的 抽样方案规定在抽取的100户中,从平原地区抽7。户,山区抽3。户,在各自范围内用随机 化方法抽取.在本例中有效收集数据是通过合理地设计抽样方案来实现的.在通过试验收集数 据的情形如何做到有效收集数据,请看下例:例4.1.3.某化工产品的得率与温度、压力和原料配方有关.为提高得率,通过试验寻找 最佳生产条件.试验因素和水平如下<<<<样品因素<<<</1234期8100012001400压力10203040配方ABCD3个因素,每个因素4个水平共要做43 = 64次试验.做这么多试验人力、物力、财力都不 可能.因此,如何通过尽可能少的试验获得尽可能多的信息?比如来用正交表安排试验 就是一种有效的方法.如何安排试验方案和分析试验结果,这构成数理统计的另一分支一试验的设计和 分析.在本例中有效收集数据是通过科学安排试验的方法来实现的.在有效收集数据中一个重要问题是:数据必须具有随机性.2 .有效的使用数据获取数据后,需要用有效的方法,去集中和提取数据中的有关信息、,以对所研究的 问题作出一定的结论,在统计上称为“推断”.为了有效的使用数据进行统计推断,需要对数据建立一个统计模型,并给定某些准 则去评判不同统计推断方法的优劣.例4.1.4.为估计一个物体的重量a才巴它在天平上称5次获得数据Xi , X2, X X X , ×5,它们都 受到随机性因素的影响(天平的精度反映了影响的大小).估计a的大小有下列三种不同 方法:(1)用5个数的算术平均值J = 1(×1 + XXX + X5)去(古计a;(2)将Xi , X2 , X X X , ×5按大 小排列为X(1) 2 X(2) 2 X X X 2 X,取中间一个值X去估计a;(3)用W = YX+ x(5) 去估计a你可能认为7优于x(3),而x(3)优于W.这是不是对的?为什么是这样?在什 么条件下才对?事实上,对这些问题的研究正是数理统计学的任务.要回答这些问题我们需要对数据建立一个统计模型和制定评判不同统计推断方法 的准则.本例中在适当的假定下,可认为数据服从正态模型.下面我们举一个例子说明采用合适的统计方法也是有效使用数据的一个重要方面.例4.15某农村有100户农户,要调查此村农民是否脱贫.脱贫的标准是每户年均收入 超过1万元.经调查此村90户农户年收入5000元,10户农户年收入10万元,问此村农民是 否脱贫?(1)用算术平均值计算该村农户年均收入如下:f = (90 < 0.5 + 10< 10)/100 = IAS(Jj)按此方法得出结论:该村农民已脱贫.但90%的农户年均收入只有5000元,事实上并未脱 贫.(2)用样本中位数计算该村农户年均收入:即将100户的年收入记为H , x2, XXX, ×1OO ,将其按大小排列为X(1) 2 X(2) 2 X X X 2 X(IOO).样本中位数定义为排在最中间两户的 平均值,即(×(50) + X(51)2 = 0.5(万)按此方法得出结论:该村农民尚未脱贫.这与实际情况相符.3 .数理统计方法的归纳性质数理统计是数学的一个分支,但是它的推理方法是不一样的.统计方法的本质是归 纳式的,而数学则是演绎式的.统计方法的归纳性质,源于它在作结论时,是根据所观察 到的大量的“个别"情况,"归纳”起来所得.而不是从一些假设、命题或已知事实出发按 一定的逻辑推理得出来的(这后者称为演绎推理).举一例子说明:统计学家通过大量的 观察资料发现,吸烟与某种呼吸系统的疾病有关.他得出这一结论的根据是:从观察到 的大量例子,看到吸烟者中患此种疾病的比例远高于不吸烟者.他不可能用逻辑推理的 方法证明这一点.试拿统计学与几何学进行比较就可以清楚地看出二者方法的差别所 在.在几何学中要证明”等腰三角形两底角相等",只需从等腰这个前提出发,运用几何 公理,一步步地推出这个结论(这一方法属于演绎推理).而一个习惯于统计方法的人, 就可能想出这样的方法:作很多大小形状不一的等腰三角形,实际测量它的底角查看区 别如何,根据所得数据,看看可否作出底角相等的结论,这属于归纳推理的方法.众所周知,归纳推理是要冒风险的.事实上归纳推理的不确定性的出现,是一种逻 辑的必然.人们不可能做出十分肯定的结论,因为归纳推理所依据的数据具有随机性. 然而,不确定性的推理是可行的,所以推理的不确定性程度是可以计算的.统计学的作 用之一就是提供归纳推理和计算不确定性程度的方法.不确定性是用概率计算的.以后 会见到我们求参数的区间估计,不但给出区间估计的表达式,而且给出这一估计区间包 含未知参数的可靠程度的大小.?4.1.2数理统计学的应用人类在科学研究、生产和管理等各方面的活动,大都离不开数据资料的收集、整理 和分析的工作.因此统计学的应用领域也及其广泛.1 .国家行政机关和各种职能机构的工作,需要经常收集各种有关的数据资料,以了 解情况并做出相应的决策.这里面的统计工作,固然有大量的描述性统计的成份,但统 计推断的方法也很有用并且十分必要.例如在判断某一时期经济运行是否过热,以便采 取宏观调控措施等重大决策时,对当时经济运行种数据和资料进行定量分析是必不可少 的.这就离不开统计推断方法.用数理统计方法进行社会调查,这种工作常属于国家职能部门的工作范围."抽样调 杳“是常用的方法.统计学的方法在决定调查规模和制定有效的抽样方案是很有用,统 计推断方法在对调杳得来的资料进行正确分析时也有指导意义.例如经过精心设计和组 织的社会抽样调查,其效果有时可达到甚至超过全面调查的水平.在人口学中,确定一 个合适的人口发展动态模型需要掌握大量的观察资料,而且要使用包括统计方法在内的 一些科学方法.再如,社会保险基金需要用到精算学,建立精算模型、对寿命数据的分析 都要用到许多统计方法.2 .在工农业生产中我们常常要利用试验设计和方差分析的方法寻找最佳生产条件. 例如为提高农业中的单位面积产量,有一些因素对这个指标有影响:种子的品种、施肥量 和浇水量等;工业生产中影响某项产品质量指标的因素有原材料产地、配方、温度和压 力等因素;为了找到一组较好的生产条件就要进行试验.如何科学的安排试验和分析试 验结果,就需要用到统计方法.试验设计的基本思想和方差分析方法就是R.A. FiSher等 在1923- 1926年期间,在进行田间试验中发展起来的,这一方法后来广泛应用于工业生 产中.数理统计方法应用于工业生产的另一个重要方面是产品质量控制、抽样调查和工 业产品寿命的可靠性问题.现代工业生产有批量大和很高可靠度的特点,需要在连续生 产过程中进行工序控制.成批的产品在交付使用前要进行验收,这种验收一般不能进行 全面检验,而只能是抽样验收,需要根据统计学的原理制定合适的抽样方案.大型设备或 复杂产品(如导弹)包含成千上万个元件.由于元件的数目很大,元件的寿命服从一定的 概率分布,整个设备(或产品)的寿命与其结构和元件的寿命分布有关,为了估计设备(或 产品)的可靠性,发展了一系列的统计方法.统计质量管理就是由上述提到的这些方法 构成的.3 .数理统计方法在经济和金融领域也有广泛的应用,在经济学中定量分析的趋势 比其他社会科学部门更早更深入.现在有一门叫做“计量经济学"的学科,其内容主要就 是将统计方法(及其他数学方法)用于分析种种经济问题的数量方面.例如早在20世纪 二、三十年代时间序列的统计分析方法就用于市场预测,目前在金融等领域也广泛的使 用时间序列方法.4 .统计方法在生物、医学和遗传学中有广泛的应用.一种药品的疗效如何,要通过 细心安排的试验并使用正确的统计分析方法,才能比较可靠地做出结论.分析某种疾病 的发生是否与特定因素有关(一个典型的例子是吸烟与患肺癌的关系),这些问题常常是 从观察和分析大量资料的基础上得到启示,再提高到理论上的研究.这方面的应用还有 流行病数据的统计分析、遗传基因数据的统计分析等.5 .数理统计方法在气象预报、水文、地震、地质等领域有广泛应用.在这类领域中, 人们对事物规律性的认识不充分,使用统计方法有助于获得一些潜在规律性的认识,用 以指导人们的行动.6 .数理统计方法在科学研究中也具有重要作用.自然科学研究的根本任务是揭示 自然界的规律性,科学试验是重要手段,而随机因素对试验结果的影响无所不在.一个 好的统计方法有助于提取观察和实验数据中带根本性的信息,因而有助于提出较正确的 理论或假说.有了一定的理论和假说后,统计方法可以指导研究工作者如何进一步安排 试验或观察,以使所得数据更有助于判定定理或假说是否正确.数理统计学也提供了理 论上有效的方法去估量观察或试验数据与理论的符合程度如何.一个著名的例子是遗传 学中的Mendal定律.这个根据观察资料提出的定律,经历了严格的统计检验.由此可见 数理统计方法是科学研究中一个必不可少的手段.另一方面,应用上的需要又是统计方法发展的动力.例如现代统计学的奠基人、英 国著名学者RA FisherffiK. PearSon在20世纪初期从事统计学的研究,就是出于生物学、 遗传学和农业科学方面的需求.?4.1.3统计学发展简史数理统计学是一门较年轻的学科,它主要的发展是从20世纪初开始.大概可分为两 个阶段.前一阶段大致上到第二次世界大战结束时为止.在这一早期发展阶段中,起主导 作用的是以RA FiSher和K. PearSOn为首的英国学派,特别是FiSher,在本学科的发展中起 了独特的作用.其他一些著名的学者,如W.S. Gosset (Student). J. Neymanx E.S. Pearson (K. Pearson的儿子)、A. Wald以及我国的许宝景教授等都作出了根本性的贡献.他们的 工作奠定了许多统计分支的基础,提出了一系列具有重要应用价值的统计方法,和一系 列的基本概念和重要理论问题.有一种意见认为瑞典统计学家H. Cramer在1946年发表 的著作Mathematical Methods of Statistics标志了这门学科达到成熟的地步.收集和记录种种数据的活动,在人类历史来源已久.翻开我国二十四史,可以看到 上面有很多关于钱粮、人口及地震洪水等自然灾害的记录.在西方国家,Statistics (统计 学)一词源出于State (国家),意指国家收集的国情材料.19世纪中叶以后,包括政治统 计、人口统计、经济统计、犯罪统计、社会统计等多方面内容的“社会统计学"T司在西 方开始出现,与此相应的社会调查也有了较大发展.人们试图通过社会调查,搜集、整 理、分析数据,以揭示社会现象和问题,并提出解决具体问题的方法.这种情况延续了 许多年,研究方法属于描述统计学的范畴.这是因为,没有一定的数学工具特别是概率 论的发展,无法建立现代意义下的数理统计学.也因为这方面的需求还没达到那么迫切, 足以构成一股强大的推动力.到十九世纪末和二十世纪初情况才起了较大的变化.有人 认为二十世纪初K. PearSOn关于2统计量极限分布的论文可以作为数理统计诞生的一个 标志;也有人认为,直到1922年FiSher关于统计学的数学基础那篇著名论文的发表,数理 统计才正式诞生.综上所述,我们可否可以得到如下粗略的结论:收集和整理乃至使用观察和试验数 据的工作由来已久,这类活动对于数理统计学的产生,可算是一个源头.十九世纪,特别 是十九世纪后半期发展速度加快,且有了质的变化.十九世纪未到二十世纪初这一阶段, 出现了一系列的重要工作.无论如何,至迟到二十世纪二十年代,这门科学已稳稳的站 住了脚跟.二十世纪前四十年有了迅速而全面的发展,到二十世纪四十年代时,已形成 为一个成熟的数学分支.从战后到现在可以说是第二阶段.在这个时期中,许多战前开始形成的数理统计分 支,在战后得到纵深的发展,理论上的深度也比以前大大加强了.同时还出现了带根本 性的发展,如Wald的统计判决理论和BayeS学派的兴起.在数理统计的应用方面,也给人 印象深刻.这不仅是战后工农业生产和科学技术迅速发展所提出的要求,也是由于电子 计算机这一有力工具的出现和飞速发展推动了数理统计学的进步.战前由于计算工具跟 不上,许多需要大量计算的统计方法很难得以使用.战后有了高速计算机便变得很容易, 这就大大推广了统计方法的应用.目前,统计方法仍在蓬勃发展中.在一些统计学发达 的国家中,特别在美国,这方面的人才数以十万计,并在大多数大学中建立了统计系.近 三十年来数理统计学在我国的发展也是令人瞩目的.?4.2数理统计的若干基本概念?4.2.1总体和样本通过下面的例子说明总体、个体和样本的概念.例421 .假定一批产品有IoooO件,其中有正品也有废品,为估计废品率,我们往往从中 抽取一部分,如1。0件进行检查.此时这批IOOO。件产品称为总体,其中的每件产品称为 个体,而从中抽取的I。件产品称为样本.样本中个体的数目称为样本的大小,也称为样 本容量.而抽取样本的行为称为抽样.从本例我们可对总体和样本作如下直观的定义:总体是与我们所研究的问题有关的所有个体组成,而样本是总体中抽取的一部分个 体.若总体中个体的数目为有限个,则称为有限总体,否则称为无限总体.在统计研究中,人们所关心的不是总体内个体的本身,而是关心个体上的一项(或几 项)数量指标,如日光灯的寿命,零件的尺寸.在例421中若产品为正品用0表示,若产品 为废品用1表示,我们关心的个体取值是0还是L因此我又可获得总体的如下定义:总体可以看成有所有个体上的某种数量指标构成的集合,因此它是数的集合.由于每个个体的出现是随机的,所以相应的个体上的数量指标的出现也带有随机 性.从而可以把此种数量指标看成随机变量,随机变量的分布就是该数量指标在总体 中的分布.以例421来说明,假定IOOOo只产品中废品数为IOO件,其余的为正品,废品率 为0.0L我们定义随机变量X如下:1废品X = 0正品,其概率分布为0- 1分布,且有P(X =D = 0.01.因此,特定个体上的数量指标是随机变 量X的观察值.这样一来,总体可以用一个随机变量X及其分布来描述,获得如下定义:定义4.2.1. 一个统计问题所研究的对象的全体称为总体.在数理统计学中总体可以用一 个随机变量及其概率分布来描述.由于总体的特征由其分布来刻画,因此统计学上常把总体和总体分布视为同义语. 由于这个缘故,常用随机变量的符号或分布的符号来表示总体.比如研究某批日光灯寿 命时,人们关心的数量指标是寿命X,那么此总体就可以用随机变量X来表示,或用其 分布函数F来表示.若F有密度,记为f,则此总体也可用密度函数f来表示.有时也根 据总体分布的类型来称呼总体的名称,如正态总体、二项分布总体、0- 1分布总体.若 总体分布函数记为F,当有一个从该总体中抽取的相互独立同分布(lid)的大小为n的样 本X,xxx,X.,则常记为Xi, X X X , X. i.i.d.二 F(4.2.1)若F有密度f,可记为Xi, X X X , X i.i.d.二 f(4.2.2)若所考虑的总体用随机变量X表示其分布函数为F,则样本Xi , X X X , Xe可视为随机变量X的 观察值,亦可记为Xi, X X X , X. i.i.d.二 X(4.23)(4.2.(1) 421)和(423)表示相同的意思.当个体上的数量指标不止一项时,我们用随机向量来表示总体.例如研究某地区小 学生的发育状况时,人们关心的是其身高X和体重Y这两个数量指标,此时总体就可以用 二维随机向量(X, Y)或其联合分布F(x, y)表示.?4.2.2样本的两重性和简单随机样本1、样本的两重性当我们从总体中作具体抽样时,每次抽样的结果都是些具体的数,如例523的打靶 问题中,3维样本X = (Xi, X2, X3),其中O 2 Xi 2 10为整数,i = 1, 2, 3,它是数字向量.但 若是在相同条件下,再打三发,由于种种不可控制的随机因素的影响,中靶的环数不可 能和上一次完全一样,具有随机性.如果无穷次打下去,每次打三发,出现的结果可视为 随机向量(Xi, X2 , X3)的观察值.样本的两重性是说,样本既可看成具体的数,又可以看成随机变量(或随机向量).在 完成抽样后,它是具体的数;在实施抽样前,它被看成随机变量.因为在实施具体抽样 之前无法预料抽样的结果,只能预料它可能取值的范围,故可把它看成一个随机变量,因 此才有概率分布可言。为区别起见,今后用大写的英文字母表示随机变量或随机向量, 用小写字母表示具体的观察值.对理论工作者,更重视样本是随机变量这一点,而对应用工作者虽则将样本看成具 体的数字,但仍不可忽视样本是随机变量(或随机向量)这一背景.否则,样本就是一堆 杂乱无章毫无规律可言的数字,无法进行任何统计处理.样本既然是随机变量(或随机 向量),就有分布而言,这样才存在统计推断问题.2、简单随机样本抽样是指从总体中按一定方式抽取样本的行为.抽样的目的是通过取得的样本对总 体分布中的某些未知因素做出推断,为了使抽取的样本能很好的反映总体的信息,必须 考虑抽样方法.最常用的一种抽样方法叫作"简单随机抽样",它要求满足下列两条:(1)代表性.总体中的每一个体都有同等机会被抽入样本,这意味着样本中每个个 体与所考察的总体具有相同分布.因此,任一样本中的个体都具有代表性.(2)独立性.样本中每一个体取什么值并不影响其它个体取什么值.这意味着,样本 中各个体X,X2,xxx,X是相互独立的随机变量.由简单随机抽样获得的样本(刈,X X X , x)称为简单随机样本.用数学语言将这一定 义叙述如下:定义4.2.2.设有一总体F, X,xxx,X.为从F中抽取的容量为n的样本,若(i) Xi, X X X , X,相互独立,(ii) Xi, x x x , X.相同分布,即同有分布F,则称(刈,X X X , X。)为简单随机样本,有时简称简单样本或随机样本.设总体为F, (X1, X X X , X。)为从此总体中抽取的简单样本则X1, X X X , X.的联合分布 为:F(XI)XF 仅2 ) XXXXF(X.) =F (Xi)i= 1若F有密度f,则其联合密度为f (×l) Xf(X2)XXXXf (x. ) = f (Xi)i= 1若样本是多维的,例如从一大群人中抽取n个人,每个测出其身高和体重.用随机向 量(X, Y)或其分布F(x, y)记总体,(Xi, H ), X X X , (X. , 丫.)就是从这一总体中抽取的一组样 本空间,其联合分布为F(×, y) X F (x2s y2) X X XX F (x. , y. ) = F (xi, yi)i=1若F(, y)有密度f (, y),则其联合密度为f (×, y) Xf (x2, y2) XXX X f (., y.) = f (x, y)i= 1显然,有放回抽样获得的样本是简单样本.当总体中个体数较大或所抽样本在总体 中所占比例较小时,无放回抽样获得的样本可以近似认为是简单样本.?4.2.3统计模型所谓一个问题的统计模型,就是指研究该问题时所抽样本的样本分布,也常称为概 率模型或数学模型.由于模型只取决于样本的分布,故常把分布的名称作为模型的名称.如下列例4.2.2中 样本分布为正态,可称其为正态模型。因此把模型和样本紧密联系起来是必要的.统计 分析的依据是样本,从统计上说,只有规定了样本的分布,问题才算真正明确了.下例告诉我们是怎样由一个具体问题建立统计模型的.例4.2.2.为估计一物件的重量a,用一架天平将它重复称n次,结果记为K , x x x , X求样 本X,xxx,X.的联合分布.解:要定出X ,xxx,X.的分布,就没有前面例子那种简单的算法,需作一些假定:(1)假定 各次称重是独立进行的,即某次称重结果不受其它次称重结果的影响.这样Xi, X X X , X.就 可以认为是相互独立的随机变量.(2)假定各次称重是在“相同条件”下进行的,可理解 为每次用同一天平,每次称重由同一人操作,且周围环境(如温度、湿度等)都相同.在这 个假定下,可认为* , X X X, X.是同分布的.在上述两个假定下,XLXXX , X。是n个独立同分 布的随机变量,即为简单随机样本.为确定刈,××x,X.的联合分布,在以上假定之下求出刈的分布即可.在此考虑称重 误差的特性:这种误差一般由大量的、彼此独立起作用的随机误差迭加而成,而每一个 起的作用都很小.由概率论中的中心极限定理可知这种误差近似服从正态分布.再假定 天平没有系统误差,则可进一步假定此误差为均值为O的正态分布.可以把刈(它可视为 物重a加上称量误差之和)的概率分布为N(a, 2).因此简单随机样本刈,×xx,X.的联合分 布为f (×, X X X , X. ) = (2)- exp. -L (×i. a)2)(4.2.4)i=1本例中求样本分布,引入两种假定:(i)导出样本刈,×xx,X i.i.d.的假定,(ii)正态假定, 这一点依据问题的性质、概率论的极限理论和以往经验.在有了研究统计模型后,很多性质不一样的问题,可以归入到同一模型下.例如涉 及到测量误差的问题,只要例422中叙述的假定误差服从正态分布的理由成立,则都可 以用正态模型(424).只要把这个模型中的统计问题研究清楚了,就可以解决许多不同 专业部门中的这样一类问题.另一方面,同一模型下可以提出很多不同的统计问题.如例422的N(a, 2)模型中, 有了样本刈,x××,X.,并规定分布(4.2.4)后就有了一个统计模型.在这个模型下可提出一 些统计问题,如在例422中,我们的问题是估计物重a.为了考察天平的精度我们可以提 出估计。2的问题,当然我们还可以对a和。2提出假设检验和区间估计问题等等.?4.2.4统计推断从总体中抽取一定大小的样本去推断总体的概率分布的方法称为统计推断.数理统计是着手于样本,着眼于总体,其任务是用样本去推断总体.当样本分布完 全已知时是不存在任何统计推断问题.当样本的分布形式已知,但含有未知参数时,有关其参数的推断,称为参数统计推 断.在另一些问题中,情况就要复杂一些.这类问题中样本分布的形式完全未知,有关 其分布的统计推断问题称为非参数统计推断问题.参数统计推断有种种不同的形式:主要有参数估计和假设检验问题.如例422中样 本分布(亦即总体分布)N (a, 2)中,当a和。2未知时,从总体中抽取大小为n的样本Xi, XXX, X.对丽2的取值作出估计或对断言“a2 1”作出接受或拒绝这T畏设的结论.非参数问题中,统计推断的主要任务是通过样本对总体分布的形式作出推断.由于样本的随机性,统计推断的结论不可能100%的正确,但我们可以给出衡量推断 正确程度的指标.如在例4.2.2中,若用S二( X估计a,可以算出 '与a的偏差大于C的 概率,即P(I V . a > c),作为用 '推断a的正福桂的合理指标.统计推断包括下列三方面内容:提出种种的统计推断的方法.(2)计算有关统计 推断方法性能的数量指标,如前述例子中用用 估计N(a,垃)中的a,用P(IS . a > C)表示 推断性能的数量指标.在一定的条件和优良性准则下寻找最优的统计推断方法,或证 明某种统计推断方法是最优的.?4.3统计量?4.3.1统计量的定义数理统计的任务是通过样本去推断总体.而样本自身是一些杂乱无章的数字,要对 这些数字进行加工整理,计算出一些有用的量,这就如同为了织布,我们首先要把棉花 加工纺成纱,然后利用纱去织布.可以这样理解:这种由样本算出来的量,把样本中与所 要解决的问题有关的信息集中起来了.我们把这种量称为统计量,其定义如下:定义431.由样本算出的量是统计量,或日,统计量是样本的函数.对这一定义我们作如下几点说明:(1)统计量只与样本有关,不能与未知参数有关.例如X N(a, 2),X,xxx,X.是从 总体X中抽取的iid.样本,则0 Xi和 Xf都是统计量,当a和。2皆为未知参数时,。(i.i=1i=1i=1a)和Xf 2都不是统计量.i=1(2)由于样本具有两重性,即样本既可以看成具体的数,又可以看成随机变量;统计 量是样本的函数,因此统计量也具有两重性.正因为统计量可视为随机变量(或随机向 量),因此才有概率分布可言,这是我们利用统计量进行统计推断的依据.(3)在什么问题中选用什么统计量,要看问题的性质.一般说来,所提出的统计量应 是最好的集中了样本中与所讨论问题有关的信息,这不是容易做到的.?4.3.2若干常用的统计量1 .样本均值:设Xi , X X X , X.是从某总体X中抽取的样本,则称_ 1 Xi . i=1为样本均值.它分别反映了总体均值的信息.2 .样本方差:设Xi , X X X , X.是从某总体X中抽取的样本,则称S2 = (Xi . V)2n 1i= 1为样本方差,它分别反映总体方差的信息.而S称为样本标准差,它反映了总体标准差的信 息.3 .样本矩:设Xi , X X X , X.为从总体F中抽取的样本,则称 jak = - Xh k = 1, 2, X X X为样本k阶原点矩,特别k = 1时,a = S即样本均值.称I _mk = (Xi. A)k, k = 2, 3, X X Xi=1为样本k阶中心矩.4 .次序统计量及其有关统计量:设Xi, X X X , X.为从总体F中抽取的样本,把其按大 小排列为X2 X(2)2 X X X 2 X(.)厕称(X,X(2), X X X , X(.)为次序统计量,(X,x x x , Xq)的 任一部分也称为次序统计量利用次序统计量可以定义下列统计量:(1)样本中位数:×(21J)当n为奇数4N1mi = Ie(4.3.1)J 2 ×(J) + ×(3+i)当 n为偶数样本中位数反映总体中位数的信息.当总体分布关于某点对称时,对称中心既是总体中 位数又是总体均值,故此时0/2也反映总体均值的信息.(2)极值:X和X(。)称为样本的极小值和极大值.极值统计量在关于灾害问题和材 料试验的统计分析中是常用的统计量.?4.4三大分布一2, t, F分布及正态总体样本均值和样本方差的分布能求出抽样分布的确切而且具有简单表达式的情形并不多,一般都较难.所幸的是,在 总体分布为正态情形,许多重要统计量的抽样分布可以求得,这些多与下面讨论的三种 分布有密切关系.这三个分布在后面几章中有重要应用.?4.4.1 2 分布定义4.4.1 .设Xi, X2 , X X X , X i .i. d.二N(0. 1),令X =X?,则称X是自由度为n的2变量,I= 1其分布称为自由度为n的2分布,记为X二Xf .设随机变量X是自由度为n的2随机变量,则其概率密度函数为'淖x>。,q (×) = (4.4.1)(0,x 2 0.注441.若记(。,人)表示形状参数为a、刻度参数为人的Gamma分布,其密度函数如下则自由度为n的2分布与Gamma分布的关系为:X= , Xf二(n2, 1/2).我们也可以利 i« 1用这一关系给出2分布的定义:“若随机变量X的概率密度函数为(n/2, 1/2),则称X为 服从自由度为n的2分布”.X?的密度函数g。(X)形状如图4.4.1 .2密度函数的支撑集(即使密度函数为正的自变量的集合)为(0, +。),由图4.4.1可见 当自由度n越大,2的密度曲线越趋于对称,n越小,曲线越不对称.当n = 1. 2时曲线是 单调下降趋于0当n 3时曲线有单峰,从0开始先单调上升,在一定位置达到峰值,然后 单下降趋向于0若X二"记P(X > c) = a,则C = Xna)称为X,分布的上侧。分位数,如图4.4.2所示. 当a和n给定时可查表求出片(a)之值,如好°(001) = 23.209, X乳0.05) = 12.592等.2变量具有下列性质:图4.4.2 x:的上侧分位数(1)设随机变量X 二 X,则有E(X) = n, Var(X) = 2n.(2)设Zl 二 f1, Z2 二 f2 ,且ZI和Z2独立,则Zl + 在二 l % 2 .我们从X2分布的定义出发给出一个简单证明:由定义ZI = X彳+ X X X + X3,此处X,X2,x××,X. 1 i.i.d.二 N(0,1),同理Z2 = X21+1 + x×x + X21+. 2,此处X. 1+1, X. 1+2,x×x,X. 1+. 2 ii.d.二 NQ 1),再由Zl和Z2的独立性可知X,X2,×xx ,X. 1,X. 1+ ,x×x ,X. 1+ 2 i.i.d.二N(0,1).因此Zi + 2 = X ? + x x × + Xf 1 + Xl +1 + x x x + X1 + 2.按定义即有Z1 + Z2二卷+. 2.?4.4.2 t 分布定义4.4.2.设随机变量X二N (0. 1), Y二且X和Y独立,则称T二一工人Yln为自由度为n的t变量,其分布称为有自由度n的t分布,记为T二t. .设随机变量T二t.,则其密度函数为 n÷l) /产、-141(4.4.2)L(X) =- 1 + > .0 < X < 0(5)n>n图4.4.3 t.的密度函数L(X)形状图L的密度函数与标准正态分布N (0, 1)密度很相似,它们都是关于原点对称,单峰偶函 数在X = 0处达到极大.但L的峰值低于N QI)的峰值的密度函数尾部都要比N Ql)的 两侧尾部粗一些.如图4.4.3所示.容易证明:I蚂L (x) = Mx),此处。(X)是N (0, 1)变量的 密度函数.若T二t. ,iBP(T I > c) = 厕C = t. (。/2)为自由度为n的t分布的双侧分位数(如 图4.4.4所示).当给定。时,t (), t.(a2)等可通过查表求出.例如抽。05) = 1.782, t9 (0.025) 2.262等.图4.4.4 t.的双侧。分位数t分布是英国统计学家WS Gosset在1908年以笔名StUdent发表的论文中提出的,故 后人称为“学生氏(StUdent)分布"或"吩布”.t变量具有下列的性质:(1)若随机变量T二则当n 2时,E (T) = 0.当n 3时,Var (T) =3.(2)当n o。时,t变量的极限分布为N(0, 1).?4.4.3 F 分布定义4.4.3.设随机变量X二X*, Y二Xf ,且X和Y独立,则称 X/ mF = Mr为自由度分别是m和n的F变量,其分布称为自由度分别是m和n的F分布,记为F二FriA0 .(X)= Im5x(n÷mx)-,X > 0,其它.(443)若随机变量Z二FmA。,则其密度函数为(0,自由度为m, n的F分布的密度函数如图4.4.5 .注意F分布的自由度m和n是有顺序 的,当m# n时若将自由度m和n的顺序颠倒一下,得到的是两个不同的F分布.图4.4.5中 给出了几个不同自由度的密度函数的曲线.由图4.4.5可见对给定m = 10, n取不同值 时fmA. (X)的形状,我们看到曲线是偏态的,n越小偏态越严重.若F二FmA.,记P(F > c) = ,则C = FmA.(。)称为F分布的上侧a分位数(见图4.4.6). 当m, n和C(给定时,可以通过查表求出FmA.之值,例如F4aio (005) = 3.48, FK)Al5。OI)= 3.80等.这在区间估计和假设检验问题中常常用到.A Fm,n (x)F变量具有下列的性质:(1)若Z(Fm,n 很U Jz ( Fnm .(2)若T(tn,则T2( Fm(3) Fm,n(l J ) = lFn,m()以上性质中(1)和(2)是显然的,(3)的证明不难,留给读者作为练习.尤其性质在求 区间估计和假设检验问题时会常常用到.因为当。为较小的数,如。=005或。=0.01, m, n给定时,从已有的吩布表上查不到Fm,n(l J 0.05)和Fm,n(l J 0.01)之值,但它们的值 可利用性质求得,因为Fn,m(0.05)和Fn,m(001)是可以通过查F分布表求得的.?4.4.4正态总体样本均值和样本方差的分布为方便讨论正态总体样本均值和样本方差的分布,我们先给出正态随机变量的线性 函数的分布.1 .正态变量线性函数的分布设随机变量X1,/,Xn U.d.(N(a, 2), c,c2,cn 为常数则有n/ nn 、T = CkXk ( N a ck, 2 Clkl吐1k兰1n特别,当Cl = / / / = Cn= "n,即T =

    注意事项

    本文(中科大概率论与数理统计讲义04数理统计的基本概念及抽样分布.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开