统计学的起源.ppt
第一章 概 论,第一节 什么是统计学?,一、概念,统计学(Statistics)是把数学的语言引入具体的科学领域,把具体科学领域中要待研究的问题抽象为数学问题的过程,它是收集、分析、列示和解释数据的一门艺术和科学。,二、发展概况,原始社会,奴隶社会,封建社会,资本主义社会,迅速发展形成分支,生物统计学,形成不同学派:,1、政治算术学派起源于17世纪60年代的英国代表人物:威廉.配第(William Petty,16231687)约翰.格朗托(John Graunt,16201674)代表作:政治算术但未采用“统计学”这个词,2、国势学派,又叫记述学派创建于17世纪的德国代表人物:海尔曼.康令(Herman Conring,16061681)阿痕瓦尔(Gottfried Achenwall,17911772)代表作:近代欧洲各国国势论首次采用“stastistik”德国经济学家和统计学家克尼斯(K.G.A Knies,18211898)在1850年发表的论文独立科学的统计学中主张把“国家论”作为“国势学”的科学命名,“统计学”作为“政治算术”的科学命名。,3、数理统计学派产生于19世纪中叶代表人物:阿道夫.凯特勒(L.A.J Quetelet,17961874)高尔登(F.Galtonl,18221911)皮尔逊(K.Pearson,18571936)逐渐形成一门独立的应用数学。1867年韦特斯坦(T.Wittstein)把既是数学,又是统计学的新生科学命名为数理统计学。,4、社会统计学派以德国为中心,创建于19世纪后期代表人物:恩格尔(C.I.E.Engel,18211896)梅尔(C.G.V.Mager,18411925)认为统计学研究的对象是社会科学,而数理统计学是一门应用数学。19世纪中叶诞生了马克思主义的统计理论,后来,列宁对其进行了丰富和发展。,三、统计学发展史中的重大事件与重要代表人物,J.Bernoulli(贝努里,瑞士,16541705)系统论证了“大数定律”,即样本容量越大,样本统计数与总体参数之差越小。,P.S.Laplace(拉普拉斯,法国,17491827)最早系统的把概率论方法运用到统计学研究中去,建立了严密的概率数学理论,并应用到人口统计、天文学等方面的研究上。,Gauss(高斯,德国,17771855)正态分布理论最早由De Moiver于1733年发现,后来Gauss在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布(又称常态分布)的理论方程,提出“误差分布曲线”,后人为了纪念他,将正态分布也称为Gauss分布。,F.Galton(高尔登,英国,18221911)19世纪末统计学开始用于生物学的研究。1882年Galton开设“人体测量实验室”,测量9337人的资料,探索能把大量数据加以描述与比较的方法和途径,引入了中位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。1889年发表第一篇生物统计论文自然界的遗传。1901年Galton和他的学生Pearson创办了“Biometrika(生物统计学报)”杂志,首次明确“Biometry(生物统计)”一词。所以后人推崇Galton为生物统计学的创始人。,K.Pearson(卡.皮尔逊,英国,18571936)Pearson的一生是统计研究的一生。他首创频数分布表与频数分布图,如今已成为最基本的统计方法之一;观察到许多生物的度量并不呈现正态分布,利用相对斜率得到矩形分布、J型分布、U型分布或铃型分布等;1900年独立发现了X2分布,提出了有名的卡方检验法,后经Fisher补充,成为小样本推断统计的早期方法之一;Pearson对“回归与相关”进一步作了发展,在18971905年,Pearson还提出复相关、总相关、相关比等概念,不仅发展了Galton的相关理论,还为之建立了数学基础。,W.S.Gosset(歌赛特,英国,17771855)在生产实践中对样本标准差进行了大量研究。于1908年以“Student(学生)”为笔名在该年的Biometrika上发表了论文平均数的概率误差,创立了小样本检验代替大样本检验的理论,即t分布和t检验法,也称为学生式分布。t检验已成为当代生物统计工作的基本工具之一,为多元分析理论的形成和应用奠定了基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。,R.A.Fisher(费歇尔,英国,18901962)Fisher一生论著颇多,共写了329篇。他跨进统计学界是从研究概率分布开始的,1915年在Biometrika上发表论文无限总体样本相关系数值的频率分布,被称为现代推断统计学的第一篇论文。1923年发展了显著性检验及估计理论,提出了F分布和F检验,1918年在孟德尔遗传试验设计间的相对关系一文中首创“方差”和“方差分析”两个概念,1925年提出随机区组和正交拉丁方试验设计,并在卢桑姆斯坦德农业试验站得到检验与应用,他还在试验设计中提出“随机化”原则,1938年和Yates合编了Fisher Yates随机数字表。,另外,Neyman(18941981)和S.Pearson进行了统计理论研究,分别与1936和1938年提出一种统计假说检验学说。P.C.Mabeilinrobis对作物抽样调查、A.Waecl对序贯抽样、Finney对毒理统计、K.Mather对生统遗传学、F.Yates对田间试验设计等都作出了杰出贡献。,四、统计学在中国的传播,我国在解放前,社会经济发展缓慢,统计的应用和发展受到了很大的限制。1913年,顾澄教授(1882?)翻译了英国统计学家尤尔的著作统计学之理论(1911),即为英美数理统计学传入中国之始。之后又有一些英美统计著作被翻译成中文,Fisher的理论和方法也很快传入中国。在20世纪30年代,生物统计与田间试验就作为农学系的必修课,1935年王绶(18761972)编著出版的实用生物统计法是我国出版最早的生物统计专著之一。随后1942年范福仁出版了田间试验技术等,这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响。,新中国成立后,许多学者翻译、编著了统计学论著,有力的推动了数理统计方法在中国的普及和应用。1978年12月国家统计局在四川峨眉召开了统计教学、科研规划座谈会,全面引进了前苏联的社会经济统计理论和统计制度,对我国社会经济统计学的发展起到了一定的积极作用。这以后有关统计学的教材与论著如雨后春笋般涌现,统计工作和统计科研迅速发展。1984年1月1日颁布实施中华人民共和国统计法,1987年2月国家统计局又发布中华人民共和国统计法实施细则,1996年5月八届人大十九次会议通过了关于修改的决定。随着计算机的迅速普及,统计电算程序SAS(Statistical Analysis System)、SPSS(Statistical Package for Social Science)、Excel等的引进,统计学在中国的应用与研究出现了崭新的局面。,第二节 生物统计学的概念及主要内容,一、概念,生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。,二、主要内容,生 的物 基统 本计 内学 容,试 验 设 计,统 计 分 析,基本原则方案制定常用试验设计方法,资料的搜集和整理数据特征数的计算统计推断方差分析回归和相关分析协方差分析主成分分析聚类分析,对比设计随机区组设计裂区设计拉丁方设计正交设计,生物统计学的基本作用:,提供整理和描述数据资料的科学方法,确定某些性状和特征的数量特征。,运用显著检验,判断试验结果的可靠性或可行性。,提供由样本推断总体的方法。,提供试验设计的的一些重要原则。,第三节 常用统计学术语,一、总体与样本,具有相同性质或属性的个体所组成的集合称为总体(population),它是指研究对象的全体;组成总体的基本单元称为个体(individual);从总体中抽出若干个体所构成的集合称为样本(sample);总体又分为有限总体和无限总体:含有有限个个体的总体称为有限总体(finitude popuoation);包含有极多或无限多个体的总体称为无限总体(infinitude popuoation).,构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小(sample size),样本容量常记为n。一般在生物学研究中,通常把n30的样本叫小样本,n 30的样本叫大样本。对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。,二、变量与常量,变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。,变量,定性变量,定量变量,连续变量,非连续变量,只有整数出现,可以有任何小数出现,为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。描述总体特征的数量称为参数(parameter),也称参量。常用希腊字母表示参数,例如用表示总体平均数,用表示总体标准差;描述样本特征的数量称为统计数(staistic),也称统计量。常用拉丁字母表示统计数,例如用 表 示样本平均数,用S表示样本标准差。,三、参数与统计数,四、效应与互作,通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。,互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。,五、机误与错误,变异,效应,误差,随机误差机误(Random error),系统误差错误(Systematic error),随机误差,也叫 抽样误差(sampling error)。这是由于试验中无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。,系统误差,也叫片面误差(lopsided error)。这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。系统误差影响试验的准确性。只要以认真负责的态度和细心的工作作风是完全可以避免的。,六、准确性与精确性,准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为,观测值为 x,若 x与相差的绝对值|x|越小,则观测值x的准确性越高;反之则低。精确性(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi、xj 相差的绝对值|xi xj|越小,则观测值精确性越高;反之则低。,