数学建模论文最终版.doc
. . 数学建模论文里约热卢奥运会奖牌榜预测摘要本文主要根据1996年到2012年历届奥运会排名数据与其影响因素等问题,对2016年里约热卢奥运会奖牌榜排名的预测分析,以与对各国的体育水平高低的分类。首先,我们考虑到奖牌的获得受多个因素影响,通过对数据的收集与分析,发现 GDP、人口数量、国家制度、东道主的因素对奖牌榜的排名起主要影响,而其他因素的影响微乎其微。通过收集最近5届的数据,选出在奖牌榜前十出现频率最高的15 个国家;并得到各个国家的奖牌总数,利用excel 软件处理,得出影响因素和奖牌总数的散点图,并由此看出基本呈线性关系。于是建立多元线性回归方程,使用最小二乘法求解出方程系数,运用matlab编程,求出结果,对结果进行残差检验并剔除异常点。通过R检验证明回归方程是准确、可行的,并且得出东道主效应为影响奖牌排名榜的主要因素。其次,由多元线性回归模型的求解得到东道主效应是造成奖牌榜排名变化的最主要原因,并且起促进作用,东道主效应会对排名造成较大的波动,所以这里剔除由于东道主效应而“多余”的奖牌数。将同个国家在不同届的奥运会获得的实际的奖牌数作为原始的灰色数据,建立灰色模型进行预测,并用matlab编程,得出排行榜前十名的国家分别为:美国、中国、俄罗斯、英国、日本、澳大利亚、德国、法国、国、意大利。最后,对排行榜前十名的国家的体育水平进行分类。由于各国的体育水平由各国政治、经济、文化等各方面因素综合决定,但根据对收集数据的分析处理,发现各个国家的GDP、人口总数在短期波动不大。故我们选取预测出的奖牌榜前十名的国家在第30届奥运会时的国家GDP和国家人口总数POP,并对人种和国家制度,运用SPSS软件进行聚类分析得到分类结果。这十个国家的体育水平可以分为三类:其中,美国、中国、俄罗斯这三个国家为第一类,英国、澳大利亚、德国这三个国家为第二类,日本、法国、国、意大利这四个国家为第三类。关键词:里约热卢奥运会奖牌榜 灰色模型 多元非线性回归 聚类分析一问题重述奥运会是竞技体育顶级盛会,其所获奖牌数与国家排名不仅仅是一个国家体育水平的反应,也是国家经济、政治和综合实力的具体表达。明年第31 届夏季奥林匹克运动会将于2016 年8月5日-21日在巴西里约热卢举行(以下简称里约奥运会),大家普遍关心的问题就是奖牌榜的排名,奥运会奖牌榜成了大家关心的热点问题。现先请查阅资料,并根据以往各国奖牌榜排名情况,以与各国经济发展,人口体质,政府政策等各种能影响到奖牌榜的因素,建立数学模型,预测2016年里约奥运会的奖牌榜前十名。并据此对各国的体育水平进行分类。二问题分析本文需要通过分析影响各国获得奖牌数的因素来建立一种适用于奥运会的奖牌数预测模型。对于影响因素,我们选取以往各国奖牌数以与排名情况等数据,将各国经济发展,人口体质,国家政策、等影响因素来进行预测。以往奖牌数和排名情况切实反应各国体育水平;各国的人口和健康程度来反映人口体质,人口越多,就会拥有更多有天赋的优秀运动员;各国的经济发展靠各国的人均GDP来反映,人均GDP 越大,就会有更多经费训练出优秀的运动员;对于国家政策,我们从国家社会制度来入手,不同的社会制度也会影响奖牌数,研究说明社会主义国家比资本主义国家在奖牌分享中,更占优势;由于主办方国家运动员更熟悉本国器材、气候等,对比赛结果也有一定的影响。所以为了研究这几个因素对奖牌数的贡献,我们将收集1996-2012 年共五届奥运会奖牌数与其排名,相应年的人均GDP、人口总数等一系列数据,进行处理分析,最终建立多元线性回归模型和灰色模型进行预测,预测出排行榜结果。同时采用聚类分析,考虑人口总数、人均GDP、奥运会成绩影响指标,对各国体育水平进行分类。三模型假设1)奥运会参与国没有诸如更改国家体制等巨大变动。2)各国的体育水平有规律可循。3)奥运会各项目规则没有大变动。4)奖牌为4分银牌为2分铜牌为1分的计分规则是科学、正确且可行的。5)假设2016年运动会如期举行,各国运动员均可参加。6)专家评价法专家的评价是较为准确的,奥运会比赛项目设置和规则无改动。7)奖牌榜的排名的主要影响因素为GDP、人口、制度、东道主,其他因素的影响微乎其微。8)假设所查询收集的数据均为真实可靠的,并且各个国家近几年的人均GDP和人口总数不变。四符号说明符号 说明 X1 GDP(亿元)X2 人口总数X3G 奖牌数的东道主效应X4 S0 东道主获得的奖牌数/总奖牌数S1 东道主其他届获得的奖牌总数/总奖牌的平均值T 东道主获得的奖牌总届数N 东道主当届总奖牌数Yi 第i个国家获得的奖牌总数五模型的建立与求解5.1模型一的建立与求解5.11初步确定影响因素对于确定里约奥运会的影响因素,当然需要知道前几届奥运会中具有争夺前面15名实力的国家,并且二战以后,越来越多的国家与地区代表队陆续参与奥运会同台竞技;而在这之前,由于部分国家受多种原因限制参加夏季奥运会以与大国之间的抵制,因此,受到社会经济方面的影响因素也较小,使得各国运动成绩缺乏可比性。所以最终选取1996-2012 年五届奥运会前15 名的国家。这五届的奖牌数以与各国的人口体质与经济状况如下:1996/2000年夏季奥运会奖牌榜(括号为改届奥运会的主办国)2004/2008夏季奥运会奖牌榜(括号为该届奥运会的主办国)2012年夏季奥运会奖牌榜(括号为改届奥运会的主办方)1996-2012年五届奥运会前十名国家人均GDP1996年-2014年四届奥运会前十名国家人口总数根据上面数据显示,以与我们查找到的有关奥运会奖牌榜预测的分析报告分析得出,对于各个国家获得奥运会奖牌数量的影响因素主要由以下几个方面:(1)人口数量。如果各个国家各种人才的概率分布是相同的,那么在其他条件相同的情况下,人口数量较多的国家将拥有绝对数量更多的优秀运动员,大大提高一个国家在奥运会上获得更多奖牌的概率。(2)经济实力。任何一项奥林匹克运动需要投入巨大的人力、物力和财力。良好的经济物质基础可以为运动员提供好的生活条件、训练条件和物质奖励,使得运动员能获得更多,更好的训练机会,有动力去争取更多的荣誉。(3)国家体育实力。一个国家的体育实力直接反映在其在奥林匹克运动会上获得的奖牌数。(4)东道主效应。美国心理学家Coumeya,将东道主效应定义为:在主客场比赛场次对等情况下,主队在竞赛中获胜的比例超过50%。他总结了棒球、足球、篮球等一些运动项目的主场胜率,发现主场明显高于客场。(5)国家政策。对体育的重视程度高、奖励政策丰厚的国家具有更高的号召力,相应地对全国资源也具有更高的整合能力。5.1.2 多元线性回归模型确定影响因素根据历年数据比较分析,我们选取了历年奖牌榜靠前的15个主要国家和地区。从世界银行数据库获取其在奥运会举办年的GDP、人口总数和国家制度。同时查询到历届奥运会的东道主。X1表示国家GDP(亿元),X2表示人口总数(万),X3表示国家制度(用0表示资本主义国家,用1表示社会主义国家),X4表示是否为东道主(用0表示该国不是东道主,用1表示是东道主),得到15个国家各项因素统计表。获奖总数受国家GDP、人口总数、国家制度、是否为东道主主要因素的影响,获奖总数为y。其数据见附录4,据此,我们画出四个因素与奖牌总数的散点图如下:图5-1-2:四个因素与奖牌总数的散点图由散点图可以看出各个因素与获奖总数大致呈现出线性关系,建立多元线性回归模型:b (1)其中是5 个未知回归系数。是随机误差,服从正态分布即假设其期望。为了估计以与的值,我们以国家或地区为单位,得到i=1,2,3,15。且满足:(2)其中i =1,2,3,15为第i次试验时的随机误差,且相互独立同服从与。为了便于计算,我们用矩阵表示:(3) (4)于是,方程(2)又可以表示为:(5)即可用最小二乘法即可求出最适宜的。在MATLAB中中可以用regress函数实现。全部程序见附录Matlab运行结果如下:对结果进行残差检验,得到以下图:从结果可以看出,可决系数R2=0.7说明回归方程的拟合程度好,同时可以看出X4,即是否为东道主对于奥运会奖牌分数的影响远超另外三个因素,所以我们忽略其他因素,假设对奥运会奖牌榜排名造成波动的因素只有是否为东道主。下面我们就这一假设,建立新-GM(1,1)灰度预测模型,来预测2016年的奖牌榜排名。5.2 .GM(1,1)模型二的建立与求解灰色模型是利用离散随机数经过生成变为随机性被显著削弱而且较有规律的生成数,建立起的微分方程形式的模型。这样便于对其变化过程进行研究和描述。由5-1-2我们知道东道主效应会对排名造成较大的波动,所以这里先考虑剔除由于东道主效应而“多余”的奖牌。5.2.1东道主效应的测算通过计算奥运会东道主当届获得的奖牌数增幅情况的平均值,即得到奥运会奖牌数的东道主效应。设D为奖牌数的东道主效应,为东道主当届获得的奖牌数占当届总奖牌数的百分比,为东道主其他届次获得奖牌数占总奖牌数百分比平均值,n为该国获得奥运会奖牌总届数,N为当届奖牌总数。则: (6)然后去除东道主效应得到的“多余”的奖牌数,得到在假设没有东道主效应下“实际”获得的奖牌数为:(7)届数东道主国家东道主获得奖牌数总奖牌数为东道主其他届次获得奖牌数占该届总奖牌分数百分比26美国10184212.00%27澳大利亚589286.25%28希腊169301.72%29中国10095810.44%30英国659626.76%5.2.1-1东道主当届获得的奖牌数占当届总奖牌数的百分比届数美国澳大利亚希腊中国英国26届美国奥运会4.87%0.95%5.94%1.78%27届澳大利亚10.45%1.40%6.36%3.02%28届希腊11.08%5.27%6.77%3.02%29届中国11.48%4.80%0.42%4.91%30届英国10.81%3.64%0.21%9.15%平均值10.96%4.57%0.68%7.43%3.65%5.2.1-2东道主其他届次获得奖牌数占总奖牌数百分比平均值5.2.2GM(1,1)模型的建立对于5.2GM(1,1)模型的建立和求解,我们知道东道主效应会对排名造成较大的波动,所以这里剔除由于东道主效应而“多余”的奖牌数。将同个国家在不同届的奥运会获得的实际的奖牌数作为原始的灰色数据,得到带原始的灰色数据为做一次累加生成数列: (8) 其中 (k=1,2,n) (9)求均值数列 (k=2,3,n) (10)即,于是建立灰色微分方程为: (k=2,3,n) (11)相应的白化微分方程为:, (12) 记, , (13) (14)则有最小二乘法,求使得达到最小值的,于是求解方程得: (k=1,2,n-1) (15)对函数表达式与进行离散,并将两者做差以便还原原序列,得到近似数据序列。利用模型进行预测:5.2.3模型二的求解取1996年到2012年共5届奥运会15选出的15个国家的总奖牌数,将其排列成时间的数列,设为代入模型公式,并利用matlab软件,计算预测出2016年各个国家的奖牌总数结果如下:排名国家预测奖牌数1美国1132中国1083俄罗斯864英国805日本466澳大利亚397德国358法国359国3010意大利262016年里约热卢奥运会奖牌数预测前十名由于本届奥运会在巴西的里约热卢举行,据前面影响因素的计算分析,得知东道主效应对奖牌获得起主要影响,故巴西也有望进入奖牌榜前十名。5.3对于预测出的奖牌榜前十名的每个国家的体育水平进行分类各国的体育水平由各国政治、经济、文化等各方面因素综合决定,收集预测出的奖牌榜前十名的国家在第30届奥运会时的国家GDP和国家人口总数POP,其数据见附录。并对人种和国家体制SYS,运用SPSS软件进行聚类分析得到如下结果:案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比10100.00.010100.0a. 平方 Euclidean 距离已使用 b. 平均联结(组之间)聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2178.1610032510.493003357.7832144352.9440355364.2624066394.5215077349.43560882314.13307991222.987080(注:图中,编号1-10分别代表以下各国:中国、美国、俄罗斯、澳大利亚、德国、日本、法国、意大利、国、英国。)有图可以看出,这十个国家的体育水平可以分为三类:其中,美国、中国、俄罗斯这三个国家为第一类,英国、澳大利亚、德国这三个国家为第二类,日本、法国、国、意大利这四个国家为第三类。中国和俄罗斯运动员水平在不断增长,美国一直保持领先地位,较为稳定。而澳大利亚与德国的奖牌数踌躇不前,并有轻微下降趋势。其余各国水平相当,且位于平均上下波动,运动员水平并未有提高。六模型评价与推广6.1 模型评价我们首先使用了多元线性回归模型来确定各个因素对奥运会奖牌的影响力,该模型运用方便,代码简短。结果证明了在东道主效应面前,其余因素可忽略不计。从而帮助我们简化了后面的预测模型。在多元线性回归模型的基础上,我们又使用了灰色预测模型,灰色预测理论自创立以来在各个领域已得到了广泛的应用。经典的GM(1,1)模型表达式简单明了,便于编程求解,能有效地根据历史数据预估未来趋势,但是其不精确等问题也在应用中逐渐暴露出来。本文中我们对原始的GM(1,1)模型进行了初始条件的优化,舍弃了最旧的数据,从进行过累加操作的第一个数据开始计算,构建了新-GM(1,1)模型。该模型在一定程度上提高了预测的可行性和预测值的精确性。6.2模型改进推广通过模型检验我们可知该模型仍存在精度、拟合程度上的不足,主要是由样本较少引起的。如果能找到更多的历史上关于奥运会的数据资料,增加样本容量,则样本估计量的标准差就会减小。另外,因为各国历年来获得的奖牌数每年相差不是很大,样本观测值分散度较小,也会降低预测精度。同时,我们可以通过选取适宜的解释变量来提高模型的拟合优度,减小残差平方和。可以在众多的解释变量序列与待预测序列之间通过灰色关联度分析排序等方法判断关联性,选取关联程度大的解释变量,进而提高模型拟合优度。因为该模型的预测过程要考虑到多个已知因素,所以在使用条件符合的情况下,该模型中所使用的多元线性回归模型也可以用GM(1,N)模型代替,或者使用BP 神经网络模型提高预测的准确度。多元线性回归模型也可以使用粒子群优化算法进行优化。6.3模型推广本次奥运会奖牌榜的预测问题的解决得益于我们结合了多元线性回归模型、新-GM(1,1)模型、模糊评价模型等数学模型。这些模型除了可以帮忙解决题目中所给的预测奥运奖牌的问题,还可以用于解决由诸多无法量化的因素影响的时间序列预测和评价问题。例如预测和控制人口增长;生命科学、生物医药学和经济学等非典型分布、非平稳领域的预测;企业综合实力评价;军队总体水平评价;国家整体素质评价以与重大竞赛活动的预测等等。参考文献1邓聚龙,灰色系统理论教程.:华中理工大学,1990年。2中庚,数学建模方法与其应用,解放军信息工程大学,高等教育,2011年。3谭宏,任娇娇,奥运会东道主效应的实证研究,师学院学报M,第13 卷第2 期:91-94,2013 年。4吴殿廷,郭谦,桂萍,记仲秋,东道主效应的测算兼论伦敦奥运会中国奖牌数超越美国的必然性,师大学学报M,第48 卷第3 期,302-305,2012 年。附录程序附录1X1=38239.97025 6716.324249 2573.124202 4056.632436 35581.7546 24101.44862 33925.47409 34650.06746 20303.45765 9541.465029 29958.08152 39141.77924 17210.60253 42679 416596 ;X2=17017790.8 182665838 1290324000 30791969.8 81835703.8 43078091.6 62674275.8 60510932.8 10992318.8 10117581 57970832.8 127197097.8 47905069.2 144953535.8 292513550.6 ;X3=0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 ; X4=1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 ;y=229 69 360 119 255 82 182 185 32 95 157 132 144 397 515 ;n=length(y);X=ones(n,1), X1',X2',X3',X4'b,bint,r,rint,s=regress(y',X);s2=sum(r.2)/(n-5);b,bint,s,s2rcoplot(r,rint)pausey=y(1) y(3:9) y(11:30); % 剔除两个异常数据X1=X1(1) X1(3:9) X1(11:30);X2=X2(1) X2(3:9) X2(11:30);X3=X3(1) X3(3:9) X3(11:30);X4=X4(1) X4(3:9) X4(11:30);n=length(y);X=ones(n,1), X1',X2',X3'b,bint,r,rint,s=regress(y',X);s2=sum(r.2)/(n-5);b,bint,s,s2rcoplot(r,rint)pausey0=1,15,7,1*b; % 预测值X11=X1-mean(X1);X22=X2-mean(X2);X33=X3-mean(X3);#=X11',X22',X33'L=inv(#'*#);X=15,7,1;xb=mean(X1),mean(X2),mean(X3);a=sqrt(X-xb)*L*(X-xb)'+1/n+1);t=tinv(0.975,n-2);d=t*a*sqrt(s2);y1=y0-d;y2=y0+d;yt=y1,y0,y2 % 预测区间(t分布)dd=norminv(0.975)*sqrt(s2);y3=y0-dd;y4=y0+dd;yn=y3,y0,y4 % 预测区间(N分布)程序附录2X0=input('data=');m,n=size(X0);X1=cumsum(X0);X1=cumsum(X0);X2=;for i=2:n-1 X2(i,:)=X1(i)+X1(i+1);endB=-0.5.*X2; t=ones(n-1,1); B=B,t; YN=X0(2:end); P_t=YN./X1(1:(length(X0)-1) | A=inv(B.'*B)*B.'*YN.'a=A(1)u=A(2)c=u/a;b=X0(1)-c;X=num2str(b),'exp','(',num2str(-a),'k',')',num2str(c); strcat('X(k+1)=',X) %时间响应方程for t=1:length(X0) k(1,t)=t-1;endkY_k_1=b*exp (-a*k)+c;for j=1:length(k)-1 Y(1,j)=Y_k_1(j+1)-Y_k_1(j);%还原预测值endXY=Y_k_1(1),Y %预测值CA=abs(XY-X0); %残差数列Theta=CA %残差检验(绝对误差序列)XD_Theta=CA./X0 %残差检验(绝对误差序列)AV=mean(CA); %残差数列平均值R_k=(min(Theta)+0.5*max(Theta)./(Theta+0.5*max(Theta);%P=0.5R=sum(R_k)/length(R_k) %关联度Temp0=(CA-AV).2;Temp1=Sum(Temp0)/length (CA);S2=sqrt(Temp1); AV_0=mean(X0);Temp_0=(X0-AV_0).2;Temp_1=sum(Temp_0)/length(CA);S1=sqrt(Temp_1);TempC=S2/S1*100;C=strcat(num2str(TempC),'%')SS=0.675*S1;Delta=abs(CA-AV);TempN=find(Delta<=SS);N1=length(TempN);N2=length(CA);TempP=N1/N2*100;P=strcat(num2str(TemP),'%')附录3预测出的奖牌榜前十名的国家在第30届奥运会时的国家GDP和国家人口总数以与人种和国家制度总表格年份国家lg GDP lg POP 人种SYS 获取奖牌比例2012(30届)中国4.915246776 5.12815362 2 1 0.091476 2012(30届)美国5.195478985 4.49672213 3 0 0.108108 2012(30届)俄罗斯4.304231942 4.15384534 3 0 0.085239 2012(30届)澳大利亚4.716512506 3.34281731 1 0 0.036383 2012(30届)德国4.531427821 3.91014396 3 0 0.045738 2012(30届)日本4.775224399 4.10506715 2 0 0.039501 2012(30届)法国4.417122789 3.8171024 3 0 0.035343 2012(30届)意大利4.303908494 3.78717699 3 0 0.029106 2012(30届)国4.052924684 3.68895346 2 0 0.029106 2012(30届)英国4.386534635 3.79968509 3 0 0.060485 附录4国家GDP奖牌总数人口国家制度东道主澳大利亚38239.9722917017790.801巴西6716.3246918266583800中国2573.124360129032400011古巴4056.63211930791969.810德国35581.7525581835703.800西班牙24101.458243078091.600法国33925.4718262674275.800英国34650.0718560510932.801希腊20303.463210992318.800匈牙利9541.465951011758100意大利29958.0815757970832.800日本39141.78132127197097.800国17210.614447905069.200俄罗斯6846.394397144953535.800美国41659.6515292513550.60022 / 22