《《统计学》(袁卫 第四版)课后答案.docx》由会员分享,可在线阅读,更多相关《《统计学》(袁卫 第四版)课后答案.docx(18页珍藏版)》请在课桌文档上搜索。
1、统计学(袁卫第四版)课后答案第一章1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。2 .简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。3 .简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。
2、非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。4 .答:(1)有两个总体:A品牌所有产品、B品牌所有产品(2)变量:口味(如可用10分制表示)(3)匹配样本:从两品牌产品中各抽取100O瓶,由100o名消费者分别打分,形成匹配样本。(4)从匹配样本的观察值中推断两品牌口味的相对好坏。第二章、统计数据的描述思考题1描述次数分配表的编制过程答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决
3、于分组的粗细。按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。2 .解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。3 .一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差
4、、方差、标准差、离散系数、偏态系数和峰度系数。4怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。5对比率数据的平均,为什么采用几何平均?答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均。6.简述众数、中位数和均值的特点和应用场合。答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度
5、来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。7为什么要计算离散系数?答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。练习题:1.频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频率)频率A1414B2121C3232D1818E1515合计100100条形图(略)2(1)采用等距分组:n=40全距=152-88=64取组距为10组数为64/10=6.4取6组频数分
6、布表如下:40个企业按产品销售收入分组表按销售收入分组企业数频率向上累积向下累积(万元)(个)(%)企业数频率企业数频率100以下512.5512.540100.0100110922.51435.03587.51101201230.02665.02665.0120130717.53382.51435.0130140410.03792.5717.5140以上37.540100.037.5合计40100.0(2)某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率()先进企业1127.5良好企业1127.5一般企业922.5落后企业922.5合计40100.03采用等距分组全距=49-
7、25=24n=40取组距为5,则组数为24/5=4.8取5组频数分布表:按销售额分组(万元)频数(天数)25-30430-35635-401540-45945-506合计40g253040455035sales4.(1)排序略。(2)频数分布表如下:100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率()650-66022660-6705567068066680-6901414690-7002626700-7101818710-7201313720-7301010730-74033740-75033合计100100直方图(略)。(3)茎叶图如下:651866145686713
8、467968112333455588969001700011223456667955666778888997888971002233567788972012256789973356741475等距分组n=65全距=9-(-25)=34取组距为5,组数=34/5=6.8,取7组频数分布表:按气温分组天数-25-208-20-158-15-1010-10-514-5-0140545107合计65ID-30-20tempture7(1)茎叶图如下:A班树茎B班数据个数树叶树叶数据个数03592144044842975122456677789121197665332110601123468892398
9、877766555554443332100700113449876655200812334566632220901145660100003(3)A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低8 .箱线图如下:(特征请读者自己分析)9 .(1)=274.1(Tjte);Me=272.5;Q1.=260.25;QU=291.25。(2)21.17(万元)。10.甲企业平均成本石=19.41(元),w21乙企业平均成本月=与=18.29(元);(SVYl华=lx2i原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉
10、低了总平均成本。11.X=j426.67(万元);z6已知=1.19,h=100,a=0.05(1)检验统计量为Z=-/N(OJ)(2)拒绝规则是:若Zz0,拒绝;否则,不拒绝(3)由亍=6.35得:Z=6-6=2.94Z005=1.64,拒绝认为改进工io艺能提高其平均强度。5解:设为如今每个家庭每天收看电视的平均时间(小时)需检验的假设为:”o6.7O,Ka6.7O调查的样本为:=200,无=7.25,s=2.5大样本下检验统计量为:X-6.70z=77?T7.25-6.70-2.52000.55*14.142.5=3.11在0.01的显著性水平下,右侧检验的临界值为ZOOl=2.33因为
11、z2.33,拒绝可认为如今每个家庭每天收看电视的平均时间增加了6.解:提出假设H0.jvct=0.752,i:0.752已知:n=30,s2=2yct=0.05检验统计量Z2=空g=篙=103(29)=42.55707CRU./5拒绝”。,可判定电视使用寿命的方差显著大于VCR7 .解:提出假设:Hm=5、Hm5=0.02,%=100,%=50,独立大样本,则检验统计量为:(-2)-5_(14.8-10.4)-5=-5.1458而ZOa=2.33因为IZAZa/2,拒绝名,平均装配时间之差不等于5分钟8 .解:匹配小样本提出假设:%,H:4由计算得:d=0.625,yrf=1.302,n=a=
12、0.05,检验统计量为J-O0.625Sti/G-1302/瓜=1.3577Z005(7)=1.8946,不拒绝不能认为广告提高了潜在购买力的平均得分。9解:提出假设:%:巧%H:巧乃2197301已知:%=288,pl=-=0.684,n、=367,p9=-=0.82,a=0.1288367=0.76Pml+p2n2_288*0.684+367*0.82勺+n2288+367Pp、0.684-0.82=-4.0476大样本,则检验统计量为:而ZOJ=I.29,因为z0/2(勺-1,叼-1),所以拒绝”。,认为两种机器的方差存在显著差异。第七章相关与回归分析思考题1.相关分析与回归分析的区别与
13、联系是什么?答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。3 .什么是总体回归函数和样本回归函数?它们之间的区别是什么?答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数:E(yX.)=(X.)=a+X.,或工=+PXj+%。总体回归函数是确定的和未知的,是回归分析所估计的对象。样本回归函数是根据样本数据所估计
14、出的因变量与自变量之间的函数关系:yi=a+xiyi=a+xi+ei回归分析的目的是用样本回归函数来估计总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参数0,/是确定的,而样本回归函数的系数2/是随机变量;总体回归函数中的误差项均不可观察的,而样本回归函数中的残差项4是可以观察的。4 .什么是随机误差项和残差?它们之间的区别是什么?答:随机误差项均表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。残差项指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是
15、不同且可观察性也不同,它们的联系可有下式:ei=底j)=(+xi+w.)-a+,玉)=(-4)+(一)Xj+%5 .为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假定?答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,最小二乘估计量才是B1.UEo15.为什么在多元回归中要对可决系数进行修正?答:在样本容量一定下,随着模型中自变量个数的增加,可决系数收会随之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。16.在多元线性
16、回归中,对参数作了t检验后为什么还要作方差分析和F检验?答:t检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和F检验就是对回归方程的整体统计显著性进行的检验方法。练习题1.解:设简单线性回归方程为:y=+v+E(1)采用O1.S估计:A,XaT)(K二)二334229.090786(七一月425053.736=-育元=549.8-0.786*647.88=40.566回归系数经济意义:销售收入每增加1万元,销售成本会增加0.786万元。(2)可决系数为:R2=(%-可(K-刃了U-)2(x-y)2334229.09242505
17、3.73*262855.25=0.9998回归标准误:3,倍=29(3)检验统计量为:I=-=,B?=Z三=223.76SeJxi-x)22,29425053.73所以区是显著不为零(4)预测:yf=+2xf=40.566+0.786*800=669.36695%的预测区间yf1.96*3,1+1,(x-1)2(%-对669.3661.96*2.29J1+V12Z、)(800-647.88)-425053.73即(664.579,674.153)(2)负相关关系(3)SourceSSdfMSNumberofobs=9F(1,7)=24.67ProbF=0.0016R-squared=0.779
18、0AdjR-squared=0.7474RootMSE=.16082ModelResidual.638U8686,18103690617.638U8686,025862415Total.8191555928,102394449yCoef.std.E,tPt955SConf.IntervalX.cons-.07041446.017831.01417571.05226-4.975.720.0020.001-.1039346-.03689413.5296328.50603(4)估计的斜率系数为-7.0414,表示航班的正点率每提高1%,百万名乘客的投诉次数会下降:7.0414*0.01=0.0704
19、14次。(5)如果叶=0.8,则=6.01787.0414*0.8=0.38468次3.ResultsofmultipleregressionforySunaarymeasuresMultipleR0.9521R-Square0.9065AdjR-Square0.8910StErrofEst3.3313ANOVATableSourcedfSSMSFp-valueExplained31937.7485645.916258.20480.0000Unexplained18199.751511.0973RegressioncoefficientsCoefficientStdErrt-valuep-va
20、lue1.owerlimitConstant32.99313.138610.51210.000026.3991xl0.07160.01484.85390.00010.0406x216.87273.99564.22280.00058.4782x317.90424.88693.66370.00187.63724.SourceSSdfMSNumberofobs=29ModelResidual2.9873e+102658318461272.9873e+109845623.911X,j9J.JProbFR-squaredAdjR-squaredRootMSE=0.0000=0.9912=0.9909=3
21、137.8Total3.0139e+10281.0764e+09consumpCoef.Std.E.tPt95%Conf.intervalgp_cons.54590542426.563.009910655.08809.87893.000.0000.006.5255705764.829.56624034088.298SourceSSdfMSNumberofobs=.29F(1,27)=3034.13ProbF=0.0000R-squared三0.9912AdjR-squared=0.9909RootMSE=3137.8ModelResidual2.9873e+102658317691272.98
22、73e+109845621.08Total3.0139e+10281.0764e09consumpCoef.Std.Err.tPt95%Conf.Intervalgnpf.cons,5459054131260.2,00991061869.52855.0870.210.0000.000,5255705.5662403127424.3135096.25.SourceSSdfMSNumberofobs=28ModelResidual6.2442e+1063190678.22263.1221e+102430410.7-JJProbFR-squaredAdjR-squaredRootMSE=0.0000
23、=0.9990=0.9989=1559Total6.2505e+10282.2323e+O9consumpCoef.std.E.tPt95%Conf.intervalgpconsump-lag.1325853.8546615.03981543.33.078106910.940.0030.000.0507435.6941105.21442721.015213SnSUmPCoef.Std.Err.tPt95%Conf,intervalgp.1603467.03525954.550.000.0877283.2329651ConSUmPjiag.7797504.071005410.980.000.63
24、3512.9259889_cons1211.364377.80583.210.004433.25881989.47SourceSSdfMSNumberofobs=29匚,177、-IOQ07ModelResidual.043595009.009495109127.043595009.000351671a.,J.,ProbFR-squaredAdjR-squaredRootMSE=0.0000=0.8212=0.8145=.01875Total.05309011828.001896076consump_raoCoef.std.E.tPt95%Conf.intervalgnp.cons-6.59e
25、-07.66625155.92e-O8-11.13.0048402137.650.0000.000-7.81e-07.6563202-5.38e-07.6761829SourceSSdfMSModel2.9088e+1021.4544e+10Residual44777396.2251791095.85Total2.9B2e+10271.0790e+09Numberofobs=28F(2,25)=8120.05ProbF=0.0000R-squared=0.9985AdjR-squared=0.9983RootMSE=1338.37.解(1)样本容量:=弧S+1=15(2) RSS=TSS-ESS=66042-65965=77(3) dfRSS=-A=15-3=12,dfss=Z-I=2(4) R2=0.9988,R2=-(-R2=1-(1-0.9988)-=0.9986TSS66042fn-kv712(5)用F检验:F=ESS(k-l)65965/2RSSn-k)77/12=5140,5(2,i2)=3.89工2,占整体对y有显著影响,但不能确定单个对y的贡献。
链接地址:https://www.desk33.com/p-1316336.html