应用多元统计分析讲稿(朱建平).docx
《应用多元统计分析讲稿(朱建平).docx》由会员分享,可在线阅读,更多相关《应用多元统计分析讲稿(朱建平).docx(42页珍藏版)》请在课桌文档上搜索。
1、应用多元统计分析讲稿(朱建平)第一节引言多元统计分析是运用数理统计方法来研究解决多指标问题的理论与方法。近30年来,随着计算机应用技术的进展与科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业与经济等许多领域,已经成为解决实际问题的有效方法。然而,随着Internet的日益普及,各行各业都开始使用计算机及相应的信息技术进行管理与决策,这使得各企事业单位生成、收集、存储与处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。显然,大量信息在给人们带来方便的同时也带来一系列问题。比如:信息量过大,超
2、过了人们掌握、消化的能力;一些信息真伪难辩,从而给信息的正确应用带来困难;信息组织形式的不一致性导致难以对信息进行有效统一处理等等,这种变化使传统的数据库技术与数据处理手段已经不能满足要求.Internet的迅猛进展也使得网络上的各类资源信息特殊丰富,在其中进行信息的查找真如大海捞针。这样又给多元统计分析理论的进展与方法的应用提出了新的挑战。多元统计分析起源于上世纪初,1928年WiShart发表论文多元正态总体样本协差阵的精确分布,能够说是多元分析的开端。20世纪30年代R.A.Fisher、H.HotellingsS.N.Roy、许宝等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速
3、得进展。20世纪40年代在心理、教育、生物等方面有很多得应用,但由于计算量大,使其进展受到影响,甚至停滞了相当长得时间。20世纪50年代中期,随着电子计算机得出现与进展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。20世纪60年代通过应用与实践乂完善与进展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究与应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。在20世纪末与本世纪初,人们获得的数据正往常所未有的速度急剧增加,产生了很多超大型数
4、据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学与政府统计等领域,多元统计与人工智能与数据库技术相结合,已在经济、商业、金融、天文等行业得到了成功的应用。为了让人们更好的较为系统地掌握多元统计分析的理论与方法,本书重点介绍多元正态总体的参数估计与假设检验与常用的统计方法。这些方法包含判别分析、聚类分析、主成分分析、因子分析、对应分析、典型有关分析、多维标度法与多变量的可视化分析等。与此同时,我们将利用在我国广泛流行的SPSS统计软件来实现实证分析,做到在理论的学习中体会应用,在应用的分析中加深理论。第二节应用背景二、多元统计分析方法的应用这里我们要通过一些实际的问题,解释选择统计
5、方法与研究目的之间的关系,这些问题与本书中的大量案例能够使得读者对多元统计分析方法在各个领域中的广泛应用有一定的熟悉。多元分析方法从研究问题的角度能够分为不一致的类,相应有具体解决问题的方法,参看表1.1。多元统计分析方法在经济管理、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、文学等方面都有广泛的应用,这里我们例举一些实际问题,进一步熟悉多元统计分析的应用领域,让读者从感性上加深对多元统计分析的认识。问题内容方法数据或者结构性化简尽可能简单地表示所研究的现象,但不缺失很多有用的信息,并希望这种表示能够很容易的解释。多元回归分析、聚类分析、主成分分析、因子分
6、析、相应分析、多维标度法、可视化分析分类与组合基于所测量到的一些特征,给出好的分组方法,对相似的对象或者变量分组。判别分析、聚类分析、主成分分析、可视化分析变量之间的有关关系变量之间是否存在有关关系,有关关系又是如何表达。多元回归、典型有关、主成分分析、因子分析、相应分析、多维标度法、可视化分析预测与决策通过统计模型或者最优准则,对未来进行预见或者推断。多元同归、判别分析、聚类分析、可视化分析假设的提出及检验检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。多元总体参数估计、假设检验1、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣
7、着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将有关强的指标归并到一起,这实际就是对指标进行聚类分析。2、在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流淌资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析与解释,又能便于抓住要紧矛盾做出科学的评价。可用主成分分析与因子分析法。3、某一产品是用两种
8、不一致原料生产的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察某商业行业今年与去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异与经营指标之间的波动是否有显著差异。可用多元正态总体均值向量与协差阵的假设检验。4、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产与非生产经营用支出、税款与上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分收入。假如我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,能够用相应分析,揭示全国农民人均纯收入的特征与各省、自治区、直辖市与各收入指标的关系。5、某医院已有
9、100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。假如关于一个新的病人,当也测得这若干项症状指标时,能够利用判别分析方法判定他患的是哪种病。6、有100种酒,品尝家能够对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远得分越低),希望用这些得分数据来熟悉这100种酒之间的结构关系。这样的问题就能够用多维标度法来解决。7、在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了60个标本,对每个标本测得20个化学成分的含量。我们希望通过对这20个化学成分的分析,熟悉矿体的性质与矿体形成的要紧原因。8、对I(X)O个类似
10、的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们能够利用聚类分析方法将这类鱼分成几个不一致品种。9、考古学家对挖掘出来的人头盖骨的高、宽等特征来推断是男或者女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。10、在高考招生工作中,我们明白每个考生的基本情况,通过分析我们不仅能够熟悉到学生喜欢学习的科目,还能够进一步从考生每门课程的成绩,分析出学生的逻辑思维能力、形象思维能力与经历力等等对学习成绩的影响。第二章多元正态分布的参数估计第一节引言多元统计分析涉及到的都是随机向量或者多个随机向量放在一起构成的随机矩阵。比如在研究公司的运营情况时,要
11、考虑公司的获利能力、资金周转能力、竞争能力与偿债能力等财务指标;又如在研究国家财政收入时,税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等都是需要同时考察的指标。显然,假如我们只研究一个指标或者是将这些指标割裂开分别研究,是不能从整体上把握研究问题的实质的,解决这些问题就需要多元统计分析方法。为了更好的探讨这些问题,本章我们首先论述有关随机向量的基本概念与性质。在有用中遇到的随机向量常常是服从正态分布或者近似正态分布,或者虽本身不是正态分布,但它的样本均值近似于正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布
12、或者近似正态分布为前提的。在多元统计分析中,多元正态分布占有很重要地位,本书所介绍的方法大都假定数据来之多元正态分布。为此,本章将要介绍多元正态分布的定义与有关性质。然而在实际问题中,多元正态分布中均值向量与协差阵通常是未知的,通常的做法是由样本来估计。这是本章讨论的重要内容之一,在此我们介绍最常见的最大似然估计法对参数进行估计,并讨论其有关的性质。第二节基本概念一、随机向量我们所讨论的是多个变量的总体,所研究的数据是同时P个指标(变量),又进行了次观测得到的,我们把这个P指标表示为X/,x2fLfXp,常用向量X=(X,X?,L,XPy表示对同一个体观测的P个变量。这里我们应该强调,在多元统
13、计分析中,仍然将所研究对象的全体称之总体,它是由许多(有限与无限)的个体构成的集合,假如构成总体的个体是具有个需要观测指标的个体,我们称这样的总体为P维总体(或者P元总体,上面的表示便于人们用数学方法去研究P维总体的特性。这里“维”(或者元”)的概念,表示共有几个分量。若观测了个个体,则可得到如表2.1的数据,称每一个个体的P个变量为一个样品,而全体个样品构成一个样本。表2.1数据X1X2Xn序号、1XuX12XlP2X2IX22X*nX.2XnP在这里横看表2.1,记为X()=(X4z,Xa2,XaP),(X=1,2,表示第0个样品的观测值。竖看表2.1,第/列的元素Xj=(Xj,Xzj,x
14、,J,)=12表示对第j个变量Xj的n次观测数值。因此,表2.1所反映出的样本资料可用矩阵表示为蜀)X(I)XgX川X2简记为X。定义2.1将P个随机变量X,Xz,Xp的整体称之维随机向量,记为X=(X,、2,Xp)。在对随机向量的研究仍然限于讨论离散型与连续型两类随机向量。二、多元分布先回顾一下一元统计中分布函数与密度函数的定义。设X是一个随机变量,称之尸(X)=P(Xx)X的概率分布函数或者简称之分布函数,记为X/(X)。若随机变量在有限或者可列个值xj上取值,记P(X=/)=必,(4=1,2,)且ZP=1,则称之Xk离散型随机变量,称P(X=Z)=P-(&=1,2,)为X的概率分布。X设
15、XF(x),若存在一个非负函数/(大),使得一切实数X有:FM=ftdt,则称之/(%)X的分-OO布密度函数,简称之密度函数。一个函数/(X)能作为某个随机变量X的分布密度函数的重要条件是:(1) f(x)0,对一切实数X;400(2) fxdx-1o0定义2.2设X=(Xl,Xz,,Xp)是P维随机向量,它的多元分布函数定义为F(x)F(Xi,X2,.9Xp)=P(XlxltX2x2tiXpxp)(2.2)记为X尸(X),其中x=(%,/,Xp)cRJR”表示P维欧氏空间。多维随机向量的统计特性可用它的分布函数来完整地描述。定义2.3设X=(X,X2,,Xp)是P维随机向量,若存在有限个或
16、者可列个P维数向量为,七,记P(X=Xk)=Pq(k=l,2,)且满足p+P2+=1,则称之X离散型随机向量,称P(X=Xk)=P火,(A=L2,.)为X的概率分布。设X-F(x)F(x1,x2,9xp),若存在一个非负函数/(xpx2,xp),使得对一切aIxPX=,2,xJR有(X)(X,W,,XP)=J2,p)dtxdtp(2.3)-O-OD则称之X连续型随机变量,称之/(马,尢2,,x0)分布密度函数,简称之密度函数或者分布密度。一个P元函数/(阳,Xp)能作为R/中某个随机向量的密度函数的要紧条件是:/(王,彳2,Xp)O,V(X,A,XJEHJ30-KO(2)(xl,x2,xp)1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 讲稿 建平
链接地址:https://www.desk33.com/p-437840.html