欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    应用多元统计分析讲稿(朱建平).docx

    • 资源ID:437840       资源大小:560.24KB        全文页数:42页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    应用多元统计分析讲稿(朱建平).docx

    应用多元统计分析讲稿(朱建平)第一节引言多元统计分析是运用数理统计方法来研究解决多指标问题的理论与方法。近30年来,随着计算机应用技术的进展与科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业与经济等许多领域,已经成为解决实际问题的有效方法。然而,随着Internet的日益普及,各行各业都开始使用计算机及相应的信息技术进行管理与决策,这使得各企事业单位生成、收集、存储与处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。显然,大量信息在给人们带来方便的同时也带来一系列问题。比如:信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辩,从而给信息的正确应用带来困难;信息组织形式的不一致性导致难以对信息进行有效统一处理等等,这种变化使传统的数据库技术与数据处理手段已经不能满足要求.Internet的迅猛进展也使得网络上的各类资源信息特殊丰富,在其中进行信息的查找真如大海捞针。这样又给多元统计分析理论的进展与方法的应用提出了新的挑战。多元统计分析起源于上世纪初,1928年WiShart发表论文多元正态总体样本协差阵的精确分布,能够说是多元分析的开端。20世纪30年代R.A.Fisher、H.HotellingsS.N.Roy、许宝等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速得进展。20世纪40年代在心理、教育、生物等方面有很多得应用,但由于计算量大,使其进展受到影响,甚至停滞了相当长得时间。20世纪50年代中期,随着电子计算机得出现与进展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。20世纪60年代通过应用与实践乂完善与进展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究与应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。在20世纪末与本世纪初,人们获得的数据正往常所未有的速度急剧增加,产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学与政府统计等领域,多元统计与人工智能与数据库技术相结合,已在经济、商业、金融、天文等行业得到了成功的应用。为了让人们更好的较为系统地掌握多元统计分析的理论与方法,本书重点介绍多元正态总体的参数估计与假设检验与常用的统计方法。这些方法包含判别分析、聚类分析、主成分分析、因子分析、对应分析、典型有关分析、多维标度法与多变量的可视化分析等。与此同时,我们将利用在我国广泛流行的SPSS统计软件来实现实证分析,做到在理论的学习中体会应用,在应用的分析中加深理论。第二节应用背景二、多元统计分析方法的应用这里我们要通过一些实际的问题,解释选择统计方法与研究目的之间的关系,这些问题与本书中的大量案例能够使得读者对多元统计分析方法在各个领域中的广泛应用有一定的熟悉。多元分析方法从研究问题的角度能够分为不一致的类,相应有具体解决问题的方法,参看表1.1。多元统计分析方法在经济管理、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、文学等方面都有广泛的应用,这里我们例举一些实际问题,进一步熟悉多元统计分析的应用领域,让读者从感性上加深对多元统计分析的认识。问题内容方法数据或者结构性化简尽可能简单地表示所研究的现象,但不缺失很多有用的信息,并希望这种表示能够很容易的解释。多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析分类与组合基于所测量到的一些特征,给出好的分组方法,对相似的对象或者变量分组。判别分析、聚类分析、主成分分析、可视化分析变量之间的有关关系变量之间是否存在有关关系,有关关系又是如何表达。多元回归、典型有关、主成分分析、因子分析、相应分析、多维标度法、可视化分析预测与决策通过统计模型或者最优准则,对未来进行预见或者推断。多元同归、判别分析、聚类分析、可视化分析假设的提出及检验检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。多元总体参数估计、假设检验1、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将有关强的指标归并到一起,这实际就是对指标进行聚类分析。2、在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流淌资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析与解释,又能便于抓住要紧矛盾做出科学的评价。可用主成分分析与因子分析法。3、某一产品是用两种不一致原料生产的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察某商业行业今年与去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异与经营指标之间的波动是否有显著差异。可用多元正态总体均值向量与协差阵的假设检验。4、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产与非生产经营用支出、税款与上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分收入。假如我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,能够用相应分析,揭示全国农民人均纯收入的特征与各省、自治区、直辖市与各收入指标的关系。5、某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。假如关于一个新的病人,当也测得这若干项症状指标时,能够利用判别分析方法判定他患的是哪种病。6、有100种酒,品尝家能够对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远得分越低),希望用这些得分数据来熟悉这100种酒之间的结构关系。这样的问题就能够用多维标度法来解决。7、在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了60个标本,对每个标本测得20个化学成分的含量。我们希望通过对这20个化学成分的分析,熟悉矿体的性质与矿体形成的要紧原因。8、对I(X)O个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们能够利用聚类分析方法将这类鱼分成几个不一致品种。9、考古学家对挖掘出来的人头盖骨的高、宽等特征来推断是男或者女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。10、在高考招生工作中,我们明白每个考生的基本情况,通过分析我们不仅能够熟悉到学生喜欢学习的科目,还能够进一步从考生每门课程的成绩,分析出学生的逻辑思维能力、形象思维能力与经历力等等对学习成绩的影响。第二章多元正态分布的参数估计第一节引言多元统计分析涉及到的都是随机向量或者多个随机向量放在一起构成的随机矩阵。比如在研究公司的运营情况时,要考虑公司的获利能力、资金周转能力、竞争能力与偿债能力等财务指标;又如在研究国家财政收入时,税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等都是需要同时考察的指标。显然,假如我们只研究一个指标或者是将这些指标割裂开分别研究,是不能从整体上把握研究问题的实质的,解决这些问题就需要多元统计分析方法。为了更好的探讨这些问题,本章我们首先论述有关随机向量的基本概念与性质。在有用中遇到的随机向量常常是服从正态分布或者近似正态分布,或者虽本身不是正态分布,但它的样本均值近似于正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或者近似正态分布为前提的。在多元统计分析中,多元正态分布占有很重要地位,本书所介绍的方法大都假定数据来之多元正态分布。为此,本章将要介绍多元正态分布的定义与有关性质。然而在实际问题中,多元正态分布中均值向量与协差阵通常是未知的,通常的做法是由样本来估计。这是本章讨论的重要内容之一,在此我们介绍最常见的最大似然估计法对参数进行估计,并讨论其有关的性质。第二节基本概念一、随机向量我们所讨论的是多个变量的总体,所研究的数据是同时P个指标(变量),又进行了次观测得到的,我们把这个P指标表示为X/,x2fLfXp,常用向量X=(X,X?,L,XPy表示对同一个体观测的P个变量。这里我们应该强调,在多元统计分析中,仍然将所研究对象的全体称之总体,它是由许多(有限与无限)的个体构成的集合,假如构成总体的个体是具有个需要观测指标的个体,我们称这样的总体为P维总体(或者P元总体,上面的表示便于人们用数学方法去研究P维总体的特性。这里“维”(或者"元”)的概念,表示共有几个分量。若观测了个个体,则可得到如表2.1的数据,称每一个个体的P个变量为一个样品,而全体个样品构成一个样本。表2.1数据X1X2Xn序号、1XuX12XlP2X2IX22X*nX.2XnP在这里横看表2.1,记为X()=(X4z,Xa2,XaP)',(X=1,2,表示第0个样品的观测值。竖看表2.1,第/列的元素Xj=(Xj,Xzj,x,J,)=12表示对第j个变量Xj的n次观测数值。因此,表2.1所反映出的样本资料可用矩阵表示为蜀)X(I)X'gX川X2简记为X。定义2.1将P个随机变量X,Xz,Xp的整体称之维随机向量,记为X=(X,、2,Xp)'。在对随机向量的研究仍然限于讨论离散型与连续型两类随机向量。二、多元分布先回顾一下一元统计中分布函数与密度函数的定义。设X是一个随机变量,称之尸(X)=P(Xx)X的概率分布函数或者简称之分布函数,记为X/(X)。若随机变量在有限或者可列个值xj上取值,记P(X=/)=必,(4=1,2,)且ZP«=1,则称之Xk离散型随机变量,称P(X=Z)=P-(&=1,2,)为X的概率分布。X设XF(x),若存在一个非负函数/(大),使得一切实数X有:FM=ftdt,则称之/(%)X的分-OO布密度函数,简称之密度函数。一个函数/(X)能作为某个随机变量X的分布密度函数的重要条件是:(1) f(x)0,对一切实数X;400(2) fxdx-1o0定义2.2设X=(Xl,Xz,,Xp)'是P维随机向量,它的多元分布函数定义为F(x)F(Xi,X2,.9Xp)=P(Xl<xltX2x2tiXpxp)(2.2)记为X尸(X),其中x=(%,/,Xp)'cRJR”表示P维欧氏空间。多维随机向量的统计特性可用它的分布函数来完整地描述。定义2.3设X=(X,X2,,Xp)'是P维随机向量,若存在有限个或者可列个P维数向量为,七,记P(X=Xk)=Pq(k=l,2,)且满足p+P2+=1,则称之X离散型随机向量,称P(X=Xk)=P火,(A=L2,.)为X的概率分布。设X-F(x)F(x1,x2,9xp),若存在一个非负函数/(xpx2,xp),使得对一切aIxPX=,2,xJR'有"(X)"(X,W,,XP)=J2,p)dtxdtp(2.3)-<O-OD则称之X连续型随机变量,称之/(马,尢2,,x0)分布密度函数,简称之密度函数或者分布密度。一个P元函数/(阳,Xp)能作为R/'中某个随机向量的密度函数的要紧条件是:/(王,彳2,Xp)O,V(X,A,XJEHJ÷30-KO(2)(xl,x2,xp)1dXp=1-0-离散型随机向量的统计性质可由它的概率分布完全确定,连续型随机向量的统计性质可由它的分布密度完全确定。【例2.1】试证函数/(x1,x2) = <e-xx+x2>O,xl O, x2 O 其它为随机向量X=(X”X2)'密度函数。证:只要验证满足密度函数两个条件即可(1)显然,当项O,/O时有/(王,工2)20+>+<C4J+c+c+(2) e-kxdxxdx1=e-ixdxxdx1=edxx=edx2=;=1-x>-0oOOOLOJO定义2.4设X=(X,X2,XJ是维随机向量,称由它的g(<p)个分量构成的子向量X")=(Xq,X,x)'的分布为X的边缘(或者边际)分布,相对地把X的分布称之联合分布。通过变换X中各分量的次序,总可假定X正好是X的前°个分量,其余一乡个分量为X,则y()qXX=C,相应的取值也可分为两部分X=。X/)1.p-qJ当X的分布函数是F(xi,x2,")时,X的分布函数即边缘分布函数为:产(七,工2,Xg)=P(XlX,XqXq)=P(XX,XqXq,Xq+8,Xpg)=(X,X2,%8,8)当X有分布密度/(匹,“2,Xp)时(亦称联合分布密度函数),则X也有分布密度,即边缘密度函数为:-KO÷<X>i(x1,x2,x47)=jJfa,Xp)0+1,,以,-00-8+>e-dx2=e x10 O0,其它【例2.2】对例2.1中的X=(Xl,乂2)'求边缘密度函数。4fl0解:U1)=f(xx2)dx1->同理/若'IV定义2.5若P个随机变量X,Xz,,Xp的联合分布等于各自的边缘分布的乘积,则称X,Xz,,X。是相互独立的。【例2.3问例2.2中的X1与X2是否相互独立?解:/(x,x2)=ju,x1 O, x2 O 其它.M OW尸。,其它A2G)二"X2 O0, 其它由于/(1,2)=,(QLa2),故与马相互独立。这里我们应该注意,由,2,XP相互独立,可推知任何Xi与Xja工力独立,但反之不真。定义2.6设X=(XpX2,-,Xpy,若E(Xi)(f=l,-,p)存在且有限,则称之E(X)=(E(X)E(Xz)-KXp)'X的均值(IRlfi)或者数学期望,有的时候也把E(X)与E(Xi)分别记为与从,即=(M,4容易推得均值(向量)具有下列性质:(1) E(AX)=AE(X)(2) E(AXB)=AE(X)B(3) E(AX+BY)=AE(X)+BE(Y)其中,X、Y为随机向量,A、8为大小适合运算的常数矩阵。定义2.7设X=(XrX2,,Xp)',丫,称。(X)AE(X-E(X)XX-E(X)'Cov(Xl9Xx)CW(X2, X)Cov(XvX1).Cov(XvXp)(2.4)COy(X2,X2)Coy(X2,XP)CoMXP,X)Co",)COMXP,Xp)为X的方差或者协差阵,有的时候把。(X)简记为2,称随机向量X与y的协差阵为Cowx,y)AE(x-E(x)(y E(y)' =Cov(XvYx)Cov(X2,)Cov(Xp)CoMXi,Xj)简记为,从而有 W = (,y)pxp ;Cov(XrY2) Cov(XvYp)Cov(X29Y2) Cov(X2,Yp)(2 5)Cov(Xp9Y2) - C。MXP3)当X=y时,即为。(X)。若COV(X,y)=o,则称X与y不有关,由X与y相互独立易推得COV(X,y)=o,即X与y不有关;但反过来,当X与y不有关时,通常不能推知它们独立。当4、3为常数矩阵时,由定义能够推出协方差阵有如下性质:(1)关于常数向量Q,有Z)(X+)=O(X)(2) D(AX)=AD(X)A,=AA,(3) Cov(AX,BY)=ACov(XyY)Br(4)设X为维随机向量,期望与协方差存在,记=E(X),=D(X)fA为X常数阵,则E(X,AX)=Zr(AT)+'A这里我们应该注意到,关于任何的随机向量X=(X,X2,,X/,)'来说,其协差阵E都是对称阵,同时总是非负定(半正定)的。大多数情况是正定的。若X=(Xl,X2,,X/,)'的协差阵存在,且每个分量的方差大于零,则称随机向量X的有关阵为R=Corr(X)=3)pp,其中COU(Xj,XJijPij=I;J=LLi,j=l,,P(2.6)为Xj与Xj的有关系数。在数据处理时,为了克服由于指标的量纲不一致对统计分析结果带来的影响,往往在使用各类统计分析之前,常需要将每个指标“标准化”,即进行如下变换X;=X,二2,J=l,.,p(2.7)JW)那么由(2.7)构成的随机向量X*=(X;,X;,X;)'。令,C=如g(%,%2,QPP),有:X*=L(X-E(X)那么,标准化后的随机向量X*均值与协差阵分别为E(M)=ECX-E(X)=C'E(X-E(X)=0D(Xtt)=DC'X-E(X)=La(X-E(X)QT=CTo(X)CT=CTNCT=R即标准化数据的协差阵正好是原指标的有关阵。第三节多元正态分布一、多元正态分布的定义1(x-")2f(x)=-=-e2,0我们先来回顾一元正态分布的密度函数,即为6上式能够改写为f(X)=J,卜,2exP一!(了一)'(尸(X-)(2.8)(2;T)()L2_由于(2.8)式中的X,均为一维的数字,能够用*一")'代表的转置。根据上面的表述形式,我们能够将其推广,给出多元正态分布的定义。定义2.8若P维随机向量X=(X1,X2,XPY的密度函数为:/a,毛,p)=小,LexP一434)£匕)(2.9)Q储|与LZJ其中X=(M,乙,)',“是P维随机向量,N是P阶正定阵,则称X服从P元正态分布,也称之XP维正态随机向量,简记为XNp(,N),显然当P=I时,即为一元正态分布密度函数。能够证明为X的均值(向量),N为X的协差阵。这里我们应该提及的是,当INI=O时,2不存在,X也就不存在通常意义下的密度函数,然而能够形式的给出一个表达式,是的有些问题能够利用这一形式对INIWo及国=0的情况给出一个统一的处理。当=2时,设X=(X,Xz)'服从二元正态分布,则.2122J-2P2_这里b:,其分别是与X2的方差,p是X与乂2的有关系数。即有=12(l-p2)/一1JW2(l-p)-2lp故与X2的密度函数为11Ui-A1)fx-2l-pXP|20三7)L2.-)(1一2)+(z2i28Jj关于夕=0,那么X与X?是相互独立的;若夕0,则x与X?趋于正有关;若夕0,则与X2趋于负有关。定理2.1设XNp(4,N),则有£(X)=,D(X)=o关于这个定理的证明能够参考文献1,该定理将多元正态分布的参数与2给予了明确的统计意义。这里我们需要明确的是,多元正态分布的定义不止是一种,更广泛的能够使用特征函数来定义,也能够用一切线性组合均为正态的性质来定义。二、多元正态分布的性质在讨论多元统计分析的理论与方法时,经常用到多元正态变量的某些性质,利用这些性质可使得正态分布的处理变得容易一些。1 .若X=区&,Xp)'Np(",),Z是对角阵,则XL,Xp相互独立。2 .若XNp(,),A为SXP阶常数阵,d为S维常数向量,则AX+dNx(A+d,AAf)即正态随机向量的线性函数还是正态的。3 .若XNp(,),将X,4,E作如下剖分(I)(2)p-qp-q4 4金21 222_p-q则 X Nq()Z) , XN/f-这里需要指出的是:第一,多元正态分布的任何边缘分布为正态分布,但反之不真。第二,由于n=Cov(XX)t故与2=0表示X与X不有关,因此可知, 万的不有关与独立是等价的。【例 2.4若 X = (Xl,X2,X3)' 华(,工)关于多元正态变量而言,X与其中,AlA2 3”(0,1,0)'。-IJ(1)"X = (OJO)XX?X,=X Naa)其中/ = (0,1,0)A23aa = (0,1,0)n 21 3112 22 32(2)AX =10-1X、-X N(A, AAf)3其中0-1AlA2儿一一公AA,=(100-1H 21 31222<7321 0、0 0 -bH Pl 33133其中X2Ai %。21=AiA2crIl 2222在此我们应该注意到,假如X=(X,Xz,Xp)'服从P元正态分布,则它的每个分量必服从一元正态分布,因此把某个分量的个样品值作成直方图,假如断定不呈正态分布,则就能够断定随机向量X=(X1,X2,XJ也不可能服从P元正态分布。第四节多元正态分布的参数估计一、多元样本的数字特征设样本资料可用矩阵表示为XnX2112xx.=("玛,Xp) =X2在这里我们给出样本均值向量、样本离差阵、样本协差阵与样本有关阵的定义。定义2.9设X(D,X(2),x川为来自P元总体的样本,其中XS)=(XH,X.2,X即)',。=1,2,7。(1)其中一X «=1(2)样本离差阵定义为SPXP=N(Xg-N)(X一N)'=(%)pp<2.11)a=l这里,Z(Xw- N)(x®-Ny a=«=1(X0l-x1,xa2-x2,. ,XflfXaP-又P=a=-2(XaXi),(X02-又2)(X“1-%)(Xfll-X1XXfl2-X2)-2(2-2)(Xal-Xi)(Xap-Xp)(Xa2-X2)(Xap-Xp)(XaP又P)(Xa2 -又2)-2 (XaP-XP)(XaP-又P)(Xal-又PSU »2 yp_SPl Sp2 Spp _11«_(3)样本协差阵定义为匕XP=-S=-S(X一G)(X一N)'=(%)(2.12)a=l这里,S二(X心(凡心=二(XlW)(X凡)'=KL=lL=p×p(4)样本有关阵定义为&x=%(2.13)P"L,J-IPXP其中rij=在此,我们应该提及的是,样本均值向量与离差阵也可用样本资料阵X直接表示如下:由于X"x;丁X + X21+ X"1一兄一%"x=-乂2X22Xn211 =X2 + X22+÷ xn2=X2nnX'PX"XnP _1nXJX2,,+ Xg区,一.其中1.=(1,1,)'那么,(2.11)式能够表示为:n_11S=Z(X一G)(X-XY=XtX-nXXr=XX-X,lnVttX=X,(In-i)X=lnn(2.14)1O-其中/“=01二、均值向*与协差阵的最大似然估计多元正态分布有两组参数,均值"与协差阵2,在许多问题中它们是未知的,需要通过样本来估计。那么,通过样本来估计总体的参数叫做参数估计,参数估计的原则与方法是很多的,这里用最常见的且具有很多优良性质的最大似然法给出与N的估计量。设X,X,X来自正态总体NJ",2)容量为的样本,每个样品XS)=(X“i,X“2,X即)',=l,2,样本资料阵为(2.1)式表示,即XX.2-X;X=21-22X?p_XmX“2X忆(2.15)则可由最大似然法求出"与N的估计量,即有A=X,=-sn实际上,最大似然法求估计量能够这样得到。针对X,X,,牙(“)来自正态总体Np(4,2)容量为的样木,构造似然函数,即11.(,)=11Xi,)=2exp-X.-Xi-)(2.16)i=(24)'2zI=IJ为了求出使(2.16)式取极值的“与N的值,将(2.16)两边取对数,即1rjInL(,)=-pnn(2)-n-(Xi-Xi-)(2.17)222/=|由于对数函数是一个严格单调增函数,因此能够通过对InL(",2)的极大值而得到与的估计量。A这里我们要注意到,根据矩阵代数理论,关于实对称矩阵A,有A')=2HX,XainA一±OA那么,针对对数似然函数(2.17)分别对从与Z求偏导数,则有普A4门Xi)=Oc,=,(2.18)由(2.18)式能够得到极大似'n察")=-竺+;£(X-")(Xi)G-)2=06乙,L/=1然估计量分别为=-Xi=X/=1=-f(xi-x)(xi-xy=-s片由此可见,多元正态总体的均值向量的极大似然估计量就是样本均值向量,其协差阵N的极大似然估计就是样本协差阵。与2的估计量有如下基本性质:1. E(N)=,即充是的无偏估计;E(JS)二生2,即LS不是N的无偏估计,而E(!S)=2,即一!一S是N的无偏估计;nnnn-12. Xf±S分别是,N的有效估计;一113. X,-S(或者S)分别是,工的一致估计(相合估计)。nn-样本均值向量产样本离差阵在多元统计推断中具有十分重要的作用,并有如下结论:定理2.2设床与S分别是正态总体N,(,2)的样本均值向量与离差阵,则1 .又Np(M,);M-I2 .离差阵S能够写为S=ZZ“Z:其中,Z,Z.T独立同分布于Np(0,E);a=l3 .亍与S相互独立;4 .S为正定阵的充要条件是>p。三、VVishart分布在实际应用中,常使用又与£=一S来估计与工,前面已指出,均值向量区的分布仍为正态分布,H-I而离差阵S的分布又是什么呢?为此给出维希特(WiShart)分布,并指出它是一元72分布的推广,也是构成其它重要分布的基础。Wishart分布是Wishart在1928年推导出来的,而该分布的名称也即由此得来。定义2.10设Xg)=(Xm,Xg,XaP)N),=1,2,且相互独立,则由X构成的随机矩阵:=XuX(a)<2.19)的分布称之非中心WiShan分布,记为Wp(2,Z).ai其中Z=(tl,从.)(儿""称之非中心参数;当=O时称之中心Wishart分布,G=I记为Wp5,N),当p,>0,Wp5,2)有密度存在,其表达式为:/(w)=<exp* -tr iw2山2 4P(P-D/4 国/2 jj 厂n-i + l2当W为正定阵其它显然,当p=l,N=/时,/(w)就是22(n)的分布密度,如今(2.19)式为W=SXXz)二£xj),有因此,Wishart分布是/分布在P维正态情况下=laO。=的推广。下面给出Wishart分布的基本性质:1 .若XgNp(从、),=1,2,且相互独立,则样本离差阵S=(X*)(X一%5L£),其中X='£X。0=l0=1kk2 .若SWp(%,E),i=l,3且相互独立,则Sj。3 .若XjWp5,N),Cpxp为非奇异阵,则CXc%5,CC'),这里我们有必要说明一下什么是随机矩阵的分布。随机矩阵的分布有不一致的定义,此处是利用已知向量分布的定义给出矩阵分布的定义。这里我们有必要说明一下什么是随机矩阵的分布。随机矩阵的分布有不一致的定义,此处是利用已知向量分布的定义给出矩阵分布的定义。XXXX设随机矩阵将该矩阵的列向量(或者行向量)一个接一个地连接起来,构成一个长的向量,即拉直向量:(Xpx2p.-,X,ll,x12,X22,.,x2,.,xlp,x2p,XqJ的分布定义为该阵的分布。若X为对称阵时,由于Xij=Xji,p=n,故只取其下三角部分构成的拉直向量,即第三章多元正态分布均值向量与协差阵的检验第一节引言在单一变量的统计分析中,已经给出了正态总体N(,/)的均值与方差/的各类检验。关于多变量的正态总体传(,£),各类实际问题同样要求对与E进行统计推断。比如,我们要考察全国各省、自治区与直辖市的社会经济进展状况,与全国平均水平相比较有无显著性差异等,就涉及到多元正态总体均值向量的检验问题等。本章类似单一变量统计分析中的各类均值与方差的检验,相应地给出多元统计分析中的各类均值向量与协差阵的检验。其基本思想与步骤均可归纳为:第一,提出待检验的假设与”i;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或者同意)。在检验的过程中,关键在于对不一致的检验给出不一致的统计量,而有关统计量的给出大多用似然比方法得到。由于多变量问题的复杂性,本章只侧重于解释选取统计量的合理性,而不给出推导过程,最后给出几个实例。为了更好的说明检验过程中统计量的分布,本章还要介绍HoteilingT2分布与Wilks分布的定义。第二节均值向量的检验一、单一变量检验的回顾及HotellingT2分布为了对多元正态总体均值向量作检验,首先需要给出HOIellingT2分布的定义。在单一变量的检验问题中,设X,X2,X来自总体N(4,j)的样本,我们要检验假设4:"=0;当已知时,用统计量Z=史二处6(3.1)_1"其中,yXj为样本均值。当假设成立时,统计量Z服从正态分布ZN(OJ),从而否定域为,=IIz>zaf2,z02为N(OJ)的上2分位点。1W_当/未知时,用S2=Y(Xi-X)2(3.2)作为的估计量,用统计量:f=('jz°)"(3.3)来做检验。当假设成立时,统计量f服从自由度为九一1的1分布,从而否定域为|”>口/2(一1),为自由度为一1的/分布上的2分位点。这里我们应该注意到,(3.3)式能够表示为=n=n(X-),(S2yX-)(3.4)关于多元变量而言,能够将/分布推广为下面将要介绍的HOteHingr2分布。定义3.1设XNp(4,Z),SWp(,Z)且X与S相互独立,"p,则称统计量="XS"X的分布为非中心HOteHingT2分布,记为T2T2(p,n,/)。当=0时,称T?服从(中心)HotellingT?分布。记为由于这一统计量的分布首先由HarOklHOtelIing提出来的,故称之HOIingT?分布,值得指出的是,我国著名统计学家许宝禄先生在1938年用不一致方法也导出分布的密度函数,因表达式很复杂,故略去。在单一变量统计分析中,若统计量,f(一1)分布,则»尸工1)分布,即把f分布的统计量转化为产统计量来处理,在多元统计分析中F统计量也具有类似的性质。定理3.1若XNp(0,N),S匕5")且X与S相互独立,令Tl=nXS'X,PM-p+1T2F(pyn-p+)(3.5)叩在我们后面所介绍的检验问题中,经常会用到这一性质。设*6%2),.,王(“)是来自P维正态总体N,(,N)的样本,且X=-YX(a,=ls=t(x(a)-x)(xa)-xyoa=(一)协差阵2已知时均值向量的检验H0:M=MO(“o为已知向量)乩:0假设”o成立,检验统计量为"2=-()'Nl(X-o)/(P)(3.6)给定检验水平Q,查炉分布表使可甯/=。,可确定出临界值?;,再用样本值计算出甯,若甯/,则否定"°,否则同意“”。这里要对统计量的选取做一些解释,为什么该统计量服从/2(P)分布。根据二次型分布定理明白,若XN0(O,W),则X%2(p).显然,器=(床-"OyNT(N-。)=«(N-O)HT0)纱2-乎其中,y=«(X4o)N,(O,N),因此,K=n(X-,y-X-.)-2(p)(二)协差阵E未知时均值向量的检验H0:=Ho(No为已知向量)乩:0假设”0成立,检验统计量为(n-l)-p + l2ST)PF(p,n P)(3.7)其中,T2=(n-1)(X-0/S'(X-0)给定检验水平,查尸分布表,使PnpT2Fa=a,可确定出临界值Fa,再用样本值计算出T2,I(H-I)PaJ若?L工,则否定"o,否则同意“0。n-)p这里需要解释的是,当X未知时,自然想到要用样本协差阵一!一S取代替£,因(-1)ST是ET的无偏n-1估计量,而样本离差阵S=(fl)-X)(.)-幻'T)a6(N-°)Np(O,E)由定义3.1知T2=(n-l)(x-oys,(X-0)-T2(p,n-p)再根据HOteHing7?分布的性质,因此(n-l)-p + l(一 I)PT2 - F(P一 p)在处理实际问题时,单一变量的检验与多变量检验能够联合使用,多元的检验具有概括与全面考察的特点,而一

    注意事项

    本文(应用多元统计分析讲稿(朱建平).docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开