沈阳建筑大学统计学实验报告超级完整版.docx
学号:实验报告课程名称:统计学学年、学期:2014年秋季实验学时:16实验工程数:H实验人姓名:专业班级:实验一:统计软件Spss、EXCel介绍;数据的图表展示实验日期:2014年11月20日第十三教学周主要实验内容统计软件Spss、EXCeI的应用介绍;利用软件进行统计数据的整理和绘制各种统计图表。作业:练习题2.1、2.2、2.32.4实验操作记录:2.1(1)用EXCel绘制频数分布表:选择【插入】菜单中的【数据透视表或数据透视图】(2)用EXCeI绘制条形图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【条形图】(3)用EXCeI绘制帕累托图:绘制好条形图,然后将条形图中的数据按升序或降序顺序重新排列(4)用Spass绘制饼图:【Graphs】一Interactive-Pie-Clustered第2步将某个分类变量选入【Slice】点击Pies2.2 (1)用Excel生成定量数据的频数分布表:【数据】一一【数据分析】一一【直方图选择【图表输出】单击【确定】(2)用EXCeI绘制直方图:输入输出区域,然后选择【数据】一一【数据分析】一一【直方图】用Spass绘制茎叶图:【Analyze】DescriptiveStatistics-Explore第2步:将变量选入Variables2.3 (1)用Excel绘制环形图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【环形图】再选【环形图】(2)用EXCeI绘制雷达图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【其他图表】再选【雷达图】2.4 用EXCel绘制箱线图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【其他图表】再选【箱线图】实验总结:通过此次试验,加深了我对EXCeI和SPaSS操作软件的应用了解,同时能更好的把实践与理论相结合。首先进行的就是对统计数据的输入与分析。这个输入过程,既要细心也要用心。画图时,不仅是仔细的输入一组数据就可以,还要考虑到整个数据模型的要求,合理而正确的分配输入数据。教师评语:本次实验成绩工程预习实验过程作业报告书写出勤和课堂纪律其他得分成绩合计:教师签字:批改日期:2.1 为评价家电行业售后效劳的质量,随机抽取由oo个家庭构成的一个样本。质量效劳的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。调查结果如下数据略)(1)制作一张频数分布表。家电行业售后效劳质量评价等级频数表评价等级频数频率A1414%B2121%C3232%D1818%E1515%总计1001(2)制作一张条形图,反映评价等级的分布。(3)绘制评价等级的帕累托图。(4)制作一张饼图,反映评价等级的构成。2.2 为确定灯泡的使用寿命(单位:小时),在一批灯泡中随机抽取io。只进行测试,所得数据如下:(数据略)(1)以组距为10进行分组,整理成频数分布表。灯泡使用寿命频数分布表按销售额分组(万元)»0. 020. 050. 06650-660660-670670-680680-690140.14690-700260.26700-710180.18710-720130.13720-730100.10730-74030.03740-75030.03合计1001.00答:从直方图可以直观地看出,灯泡使用寿命的分布根本上是对称的,右边的尾部稍长一些,灯泡使用寿命接近正态分布。(3)制作茎叶图,并与直方图作比拟。使用寿命Stem-and-LeafPlotFrequencyStem&Leaf1.00Extremes(=<651)1.006582.0066.143.0066.5683.0067.1343.00676797.0068.11233347.0068.555889913.0069,55666778888998.00700011223410.0070.56667788896.0071.0022337.0071.56778894.007201226.0072.5678991.0073.32.0073.561.0074.11.0074.71.00Extremes(>=749)Stemwidth:10Eachleaf:1case(s)答:比拟直方图与茎叶图:直方图的数据分布很方便,但原始数据看不到了,茎叶图那么不同,不仅可以看出数据的分布,还能保存原始数据的信息。2.3 甲、乙两班有40名学生,期末统计学考试成绩的分布如下:(1)画出两个班考试成绩的环形图,比拟它们的构成。12)画出雷达图,比拟两个班考试成绩的分布是否相似。答:从图中可以看出甲、乙两班的成绩分布不相似,没有相似性。24下表是我国10个城市2006年各月份的气温(oC)数据:(数据略)绘制各城市月气温的箱线图,并比拟各城市气温分布的特点答:从箱线图可看出,这10个城市的月气温存在较大差异,离散程度高的城市为沈阳、北京、郑州、武汉;离散程度低的为海口、昆明、广州。月气温较高的城市主要为中位数较大的海口、广州,月气温较低的为城市中位数较小的沈阳;月气温分布较对称的城市主要有北京、沈阳;月气温分布不对称的城市主要有:海口;月气温存在极值的城市有沈阳、北京、重庆。实验二:用统计量描述数据;概率分布;参数估计实验日期:2014年11月27日第十四教学周主要实验内容利用Spss.Excel软件对数据进行概括性度量、计算概率分布的概率及概率值,进行参数估计。作业:练习题3.5、4.4、5.3、5.7实验操作记录:3.5用EXCel计算描述统计量:【工具】一一【数据分析】一一【描述统计】一一【确定】一一【输入区域】一一【输出选项】一一【汇总统计】4.4用SPaSS绘制正态概率图:第1步:Analyze】DescrictiveStatisticsP-PPlot或Q-QPlot5.3用Spass求置信区间:第1步:选择【Analyze】然后选择【DeSCriPtiVeStatistics-Explore选项进入主对话框5.7用SPaSS求两个总体均值之差的区间估计:【Analyze】CompareMeansPaired-SamplesTTest)将两个样本同时选入【PairedVariables实验总结:实验二主要是对描述统计量的计算,像众数,中位数,标准误差,方差,峰度,偏度,置信度等等。通过这次试验,我进一步熟悉了这些描述统计量的计算公式,懂得了该怎么算这些描述统计量,此外,我还掌握了一些数据统计方面的技能:利用EXCEL进行数据处理、描述性统计及区间估计。在具体的操作过程中,我感受到,合理并充分利用EXCEL对我们进行数据统计具有很大的作用,能够使我们更加直观地看到数据,一目了然。教师评语:本次实验成绩工程预习实验过程练习题报告书写出勤和实验纪律其他得分成绩合计:教师签字:批改日期:3.5一种产品需要人工组装,现有3种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用3种方法组装。m¾2¾3差误数 差 值值 数 均街位数准差度度域小大和测 平标中众标方峰偏区最最求观165.6O. 5503251651642. 1313984. 542857-O. 1345O. 3513718162170248415差谀数 差 值值 数 均程位数准差度度域小大和测 平标中众标方峰偏区最最求观128. 7333 O. 4521551291281.751193. 066667 O. 454621-O. 174487125132193115差误数 差 直直 数 均泊位数准差度度域小大和测 平标中众标方峰偏区最最求观125. 5333 O. 716251126126 2.774029 7. 695238 11.66308 -3. 2379312116128188315答:(1从集中度,图散度和分布形状三个角度统计量来评价。从集中度看,方法A的平均水平最高,方法C最低;从离散程度看,方法A离散系数最小方法C最大;从分布形状看,方法A和方法B偏斜程度都不大,方法C那么较大。(2)综合来看,应选择方法A,因为平均水平较高且离散程度小。44由30辆汽车构成的一个随机样本,绘制正态概率图。答:由正态概率图可以看出,汽车耗油量根本服从正态分布。53某大学为了解学生每天上网的时间,在全校学生中随机抽取36人,调查他们每天上网的时间(单位:小时),得到数据如下:(数据略)求该校大学生平均上网时间的置信区间,置信水平分别为90%,95%和99%。One-SampleStatisticsNMeanStd.DeviationStd.ErrorMean加班时间1813.567.8011.839One-SampleTestTestValue=0tdfSig.(2-tailed)MeanDifference95%ConfidenceIntervaloftheDifferenceLowerUpper加班时间7.37317.00013.5569.6817.43平均数方差标准差置信水平置信下限置信上限90%2.883.763.322.591.6195%2.793.8499%2.634.015.7一家人才测评机构对随机抽取的io名小企业的经理人用两种方法进行自信心测试,得到自信心测试分数如下数据略)构建两种方法平均自信心得分之差Ud=Ul-U2的95%的置信区间。PairedSamplesStatisticsMeanNStd.DeviationStd.ErrorMeanPairl方法172.601014.0734.450方法261.601014.7594.667PairedSamplesCorrelationsNCorrelationSig.Pair1方法1&方法210.898.000PairedSamplesTestPairedDifferencestdfSig.(2-tailed)MeanStd.DeviationStd.ErrorMean95%ConfidenceIntervaloftheDifferenceLowerUpperPairl方法1-方法211.0006.5322.0666.32715.6735.3259.000答:从表中可以看出两种方法平均自信心得分之差Ud=UbU2的95%的置信区间为(6.327,15.673)实验三:假设检验;分类变量的推断;方差分析与实验设计实验日期:2014年12月4日第十五教学周主要实验内容利用Spss、EXCel软件对数据进行假设检验、分类变量的推断、方差分析与实验设计。作业:练习题6.9、7.2、7.4、8.3、8.6实验操作记录:6.9(1)1)用EXCeIt-检验:双样本等方差假设:第1步:将原始数据输入到EXCeI工作表格中,选【工具【数据分析【t-检验:双样本等方差假设】2)用EXCelt-检验:双样本异方差假设:第1步:将原始数据输入到EXCel工作表格中,选【工具【数据分析】一一【t-检验:双样本异方差假设】(2)用EXCelt-检验:F检验双样本方差:第1步:【工具】【数据分析】【F检验双样本方差】7.2Spass一期望频数不等拟合优度:先指定“频数”变量,Analyze】NonparametricTestChiSqUare】将频数变量选入TestVariableList7.4Spass独立性检验:将列联表中的数据转换为原始数据形式,Analyze】DescriptiveStatistics-Crosstabs,行变量Row(s)J,列选入Column(s)8.3Excel单因素方差分析:选择“工具”下拉菜单,【数据分析】,然后选择【单因素方差分析】选择【确定】,出现对话框8.6Excel:可重复双因子分析:选择“工具”下拉菜单,并选择【数据分析】选项,在分析工具中选择【方差分析:可重更双因子分析】Spass:可重友双因子分析:选择Analyze,并选择GeneralLinearModel-Univaiate进入主对话框。实验总结:实验三是对正态整体的均值,比例和方差进行假设检验,在实验过程中,许多地方让我卡住了,后来通过与老师的交流得知了正确的方法,这才知道是课本知识掌握的不够好。除此之外,实验三还进行了方差分析,这与之前的实验比拟相似,都是用到数据分析这个工具,主要的工作量集中在数据的输入和数据的分析方面,比拟难的就是就是在根据输入的数据作出数据表,然后要进行数据分析。教师评语:本次实验成绩工程预习实验过程练习题报告书写出勤和实验纪律其他得分成绩合计:教师签字:批改日期:6.9为比拟新旧两种肥料对产量的影响,以便决定是否采用新肥料。研究者选择了面积、土壤等条件相同的40块田地,分别施用新旧两种肥料,得到的产量数据如下:数据略)去显著性水平=0.05,检验:U)新肥料获得的平均产量是否显著地高于旧肥料?假设条件为:1)两种肥料产量的方差未知但相等,即。产二。22。2)两种肥料产量的方差未知且不相等,即。Fo22。解:(1)设HI=新肥料,u2=旧肥料。H0:ul-u20;Hl:ul-u2<0o1.检验:双样本等方差假设变量1变量2平均100.7109.9方差24.1157894733.35789474观测值2020合并方差28.73684211假设平均差0df38tStat-5.427106029P(T<=t)单尾1.73712E-06t单尾临界1.68595446P(T<=t)双尾3.47424E-06t双尾临界2.0243941641)t=-5.427,P=1.73712E-06,拒绝原假设,新肥料获得的平均产量显著地高于旧肥料。t-检验:双样本异方差假设平均100.7109.9方差24.1157894733.35789474观测值2020假设平均差0df37tStat-5.427106029P(T<=t)单尾1.87355E-06t单尾临界1.68709362P(T<=t)双尾3.74709E-06t双尾临界2.026192463变量1变量22)P=1.87355E-06,拒绝原假设,新肥料获得的平均产量显著地高于旧肥料F-检验双样本方差分析变量1变量2平均100.7109.9方差24.1157894733.35789474观测值2020df1919F0.722940991P(F<=f)单尾0.243109655F单尾临界0.461201089(2)提出假设:H0:l222=ljHl:l222=l由于P=0.243109655>0.025,不拒绝原假设,没有证据说明两种肥料的方差有显著差异。7.2一家电视台为了解观众对某档娱乐节目的喜欢程度,对不同年龄段的男女观众进行了调查。男性ObservedNExpectedNResidual557.0-2.06628.1-22.1121213.2-1.2161610.55.525255.319.7男性ObservedNExpectedNResidual557.0-2.06628.1-22.1121213.2-1.2161610.55.525255.319.7Total64TestStatistics男性Chi-Square94.942adf4Asymp.Sig.000a.Ocells(.0%)haveexpectedfrequencieslessthan5.Theminimumexpectedcellfrequencyis5.3.解:提出假设:HO:男性观众喜欢该档娱乐节目的比例和女性一致;H1:男性观众喜欢该档娱乐节目的比例和女性不一致由于P=0.858>0.05,不拒绝原假设,说明男性观众喜欢该档娱乐节目的比例和女性一致。7.4为分析不同地区的消费者与所购置的汽车价格是否有关,一家汽车企业的销售部门对东部地区、中部地区和西部地区的四百个消费者做抽样调查,检查地区与所购置的汽车价格是否有关。CaseProcessingSummaryCasesValidMissingTotalNPercentNPercentNPercent汽车价格地区400100.0%0.0%400100.0%ValuedfAsymp.Sig.(2-sided)PearsonChi-Square1.ikelihoodRatioNofValidCases29.991a30.68340066.000.000a.0cells(.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis21.00.汽车价格*地区Crosstabulation地区Total东部地区西部地区中部地区汽车价格1020万元Count505060160ExpectedCount56.048.056.0160.010万元以下Count204040100ExpectedCount35.030.035.0100.02030万元Count30202070ExpectedCount24.521.024.570.030万元以上Count40102070ExpectedCount24.521.024.570.0TotalCount140120140400ExpectedCount140.0120.0140.0400.0解:提出假设:H0:地区与所购置的汽车价格独立;H1:地区与所购置的汽车价格不独立由于P值接近于0,拒绝原假设,说明地区与所购置的汽车价格不独立。8.3某家电制造公司准备购进一批5#电池,现有A、B、C三个电池生产企业愿意供货,为比拟它们生产的电池质量,从每个企业各随机抽取5只电池,经试验得其寿命(单位:h)数据如下。试分析三个企业生产的电池的平均寿命之间有无显著差异(=0.05h如果有差异,试用多重比拟检验哪些企业之间有差异?解:单因素方差分析:提出假设:HO:al=a2=a3;Hl:al,a2,a3不全为0SUMMARY组观测数求和平均方差1522244.428.32515030103521342.615.8方差分析差异源SSdfMSFP-valueFcrit组间615.62307.817.068390.000313.885294组内216.41218.03333总计83214由于F=17.07>F0.05(2,12)=3.89,因此拒绝原假设HO,即三个企业生产的电池的平均寿命之间有显著差异。多重比拟检验:-:提出假设:检验1:HO:l=a2Hkala2检验2:HO:al=a3Hkala3检验3:HO:a2=a3Hka2a3二:计算检验的统计量:Iyl-y2I=14.4Iyl-y3I=1.8Iy2-y3I=12.6三:计算LSD根据方差分析表可知,MSE=18.03333ot分布的自由度为n-k=12,根据LSD计算公式计算LSD=5.85四:做出决策Iyl-y2I=14.4>5.85,拒绝HO,A企业和B企业的电池的平均寿命之间有显著差异Iyl-y3I=1.8<5.85,不拒绝HO,A企业和C企业的电池的平均寿命之间没有显著差异Iy2-y3I=12.6>5.85拒绝HO,B企业和C企业的电池的平均寿命之间有显著差异。8.6城市道路交通管理部门为研究不同的路段和不同的时段对行车时间的影响,让一名交通警察分别在3个路段的顶峰期与非顶峰期亲自驾车进行试验,通过试验共获得30个行车时间的数据单位:分。试分析路段、时段以及路段和时段的交互作用对行车时间的影响=0.05oExel:方差分析:可重复双因素分析SUMMARY顶峰期路段1路段2路段3总计观测数55515求和181.4151.8172.2505.4平均36.2830.3634.4433.69333方差2.2672.5182.7238.702095非顶峰期观测数55515求和150121141.4412.4平均3024.228.2827.49333方差5.2656.0255.79711.22067总计观测数101010求和331.4272.8313.6平均33.1427.2831.36方差14.3026714.3373314.32711方差分析差异源SSdfMSFP-valueFcrit行355.7787939.5309623.008884.18E-082.456281列180.5147290.2573352.534023.06E-083.554557误差30.92533181.718074总计567.218729解:H0:无影响Hl:有影响1.路段对行车时间的影响P=4.18E-08<a=0.05,说明路段对行车时间的影响显著。2 .时段以对行车时间的影响3 .路段和时段的交互作用对行车时间的影响F=0.026956<Fcrit=3.885294,说明路段和时段的交互作用对行车时间的影响显著。Spass:Between-SubjectsFactorsN时段非顶峰期15顶峰期15路段路段110路段210路段310TestsofBetween-SubjectsEffectsDePendentVariabIe:行车时间SourceTypeIIISumofSquaresdfMeanSquareFSig.CorrectedModel468.815a3156.27241.290.000Intercept28078.561128078.5617418.830.000时段288.3001288.30076.174.000路段180.515290.25723.848.000Error98.404263.785Total28645.78030CorrectedTotal567.21929a.RSquared=.827(AdjustedRSquared=.806)实验四:一元线性回归;多元线性回归;时间序列预测及对实际数据进行分析实验日期:2014年11月11日第十六教学周主要实验内容利用SpssExcel软件进行一元线性回归、多元线性回归、时间序列预测及对实际数据进行综合分析。作业:练习题9.2、9.3、11.1、11.3Between-SubjectsFactorsN时段非顶峰期15顶峰期15路段路段110路段210实验操作记录:9.2:选择AnalyzeCorrelate-BiVariate】,将两个变量本例为销售收入和广告费用)分别选入【Variables】,点击OKo9.3:选择【工具】下拉菜单,并选择【数据分析】选项在分析工具中选择【回归】,选择【确定】。11.1:选择【工具】一数据分析。在分析工具中选择【移动平均工单击确定。11.3:选择【Analyze-Forecasting】Createmodels,进入主对话框,将预测变量选入DependentVariableslo在Method下选择ExponentialSmoothing,点击Criteria,在ModelType下选择Simple(进行简单指数平滑预测),点击Continue返回主对话框。实验总结:通过本次实验,我不仅仅是掌握操作步骤完成了实验任务,更重要的是在实验中验证自己的所学知识的掌握和运用。统计学的学习就是对数据的学习,而通过实验可以加强我们对统计数据的认知和运用,更好的学习统计学的知识。经过了几节课的实验,我发现做实验有许多需要注意的地方,尤其输入数据时不能出错,只有掌握了这些技巧才能让实验结果变的更加准确和方便。教师评语:本次实验成绩工程预习实验过程练习题报告书写出勤和实验纪律其他得分成绩合计:教师签字:批改日期:9.2下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:(数据略)(1)绘制散点图,计算相关系数,说明二者之间的关系。(2)以人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。(3)计算判定系数和估计标准误差,并解释其意义。(4)检验回归方程线性关系的显著性。(a=0.05)(5)如果某地区的人均GDP为5OOo元,预测其人均消费水平。(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。ModelSummarybModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.998a.996.996247.303a. Predictors:(Constant),人均GDP(元)b. DependentVariable:人均消费水平(元)ANOVAbModelSumofSquaresdfMeanSquareFSig.1Regression8.144E718.144E71331.692.000aResidual305795.034561159.007Total8.175E76a. Predictors:(Constant),人均GDP(元)b. DependentVariable:人均消费水平(元)CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)734.693139.5405.265.003人均GDP(元).309.008.99836.492.000a.DependentVariable:人均消费水平(元)ResidualsStatisticsaMinimumMaximumMeanStd.DeviationNPredictedValue1556.4111398.764515.573684.3137Std.PredictedValue-.8031.868.0001.0007StandardErrorofPredictedValue93.871210.510127.36838.2097AdjustedPredictedValue1539.1711011.394473.543583.0767Residual-341.707290.035.000225.7567Std.Residual-1.3821.173.000.9137Stud.Residual-1.6121.268.0531.0947DeletedResidual-464.815534.61342.035350.1687Stud.DeletedResidual-2.0791.376.0061.2377Mahal.Distance.0073.490.8571.1847Cook'sDistance.0101.693.359.6087CenteredLeverageValue.001.582.143.1977a.DependentVariable:人均消费水平(元)(1)由excel的CoRREL函数计算相关系数=0.998128,说明人均GDP和人均消费水平高度相关。(2)1=0.308683,0=734.6928y=734.6928+0.308683x回归系数的含义:人均GDP每增加1元,人均消费增加0.309元。(3)判定系数R2=O.996,估计标准误差二247.303意义:人均GDP对人均消费水平的影响到达99.6机(4)设HO:Bl=O,人均消费水平与人均GDP之间的线性关系不显著。F=1331.6921,F=6.61,F>Fa,拒绝原假设,即线性关系显著。(5)y=734.6928+0.308683x=734.6928+0.308683X5000=2278.1078(元)置信区间为(1990.74915,2565.46399)9.3随机抽取io家航空公司,对其最近一年的航班正点率和顾客投诉次数金子那个调查,所得数据如下数据略)(1)用航班正点率作自变量,顾客投诉次数作因变量,求出估计的回归方程,并解释其意义。(2)检验回归系数的显著性。(Q=O.05)(3)如果航班的正点率为80%,估计顾客的投诉次数。ModelSummarybModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.869a.755.72418.887a. Predictors:(Constant),航班正点率(%)b. DependentVariable:投诉次数(次)ANOVAbModelSumofSquaresdfMeanSquareFSig.1RegressionResidualTotal8772.5842853.81611626.4001898772.584356.72724.592.001aa. Predictors:(Constant),航班正点率()b. DependentVariable:投诉次数(次)CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)430.18972.1555.962.000航班正点率(%)-4.701.948-.869-4.959.001a.DependentVariable:投诉次数(次)ResidualsStatisticsaMinimumMaximumMeanStd.DeviationNPredictedValue.55108.2073.6031.22110Std.PredictedValue-2.3401.108.0001.00010StandardErrorofPredictedValue5.97515.8957.9572.98810AdjustedPredictedValue-41.80102.9969.4942.14410Residual-24.67824.615.00017.80710Std.Residual-1.3071.303.000.94310Stud.R