spss时间序列分析教程.docx
3.3时间序列分析3.3.1 时间序列概述1 .基林念(1)概概念:系统中某一变量的观测值按时间依次(时间间隔相同)排列成一个数值序列,展示探讨对象在肯定时期内的变动过程,从中找寻和分析事物的变更特征、发展趋势和规律。它是系统中某变量受其它各种因素影响的总结果.(2)探讨实质:通过处理预料目标本身的时间序列数据,获得事物随时间过程的演化特性及规律,进而预料事物的将来发展。它不探讨事物之间相互依存的因果关系。(3)假设基础:惯性原则。即在肯定条件下,被预料事物的过去变更趋势会持续到将来。示意着历史数据存在若某些信息,利用它们可以说明及预料时间序列的现在和将来。近大远小原理(时间越近的数据影响力越大)和无季节性、无趋势性、线性、常数方差等.(4)探讨意义:很多经济、金触、商业等方面的数据都是时间序列数据。时间序列的预料和评估技术相对完善,其预料情景相对明确。尤其关注预料目标可用数据的数员和侦星,即时间序列的长度和预料的频率。2 .变动特点(D趋势性:某个变量随着时间进展或自变量变更,呈现种比较缓慢而长期的持续上升、下降、停留的I可性质变动趋向,但变动幅度可能不等。(2)周期性:某因素由于外部影响随着自然季节的交替出现高峰及低谷的规律,(3)随机性:个别为随机变动,整体呈统计规律。,综合性:实际变更状况般是几种变动的叠加或组合。预料时般设法过滤除去不规则变动,突出反映趋势性和周期性变动.3 .特征识别相识时间序列所具有的变动特征,以便在系统预料时选择采纳不同的方法。(1)机性:匀称分布、无规则分布,可能符合某统计分布.(用因变量的散点图和直方图及其包含的正态分布检验随机性,大多数听从正态分布。)(2)平栓性:样本序列的自相关函数在某一固定水平线旁边摇摆,即方差和数学期望稳定为常数。样本序列的自相关函数只是时间间隔的函数,刚好间起点无关.其具有对称性,能反映平稳序列的周期性变更。特征识别利用自相关函数CF:Pk=k0其中丫,是yt的k阶自协方差,旦PiI=1、-1<p1o平稳过程的自相关系数和偏自相关系数都会以某种方式衰减趋近于0.前者测度当前序列及从前序列之间简洁和常规的相关程度,后者是在限制其它从前序列的影响后,测度当前序列及某一从前序列之间的相关程度。事实上,预料模型大都难以满意这些条件,现实的经济、金融、商业等序列都是非稳定的,但通过数据处理可以变换为平程的。4 .预料类型(1)点预料:确定唯的最好预料数值,其给出了时间序列将来发展趋势的个简洁、干脆的结果。但常产生一个非零的预料误差,其不确定程度为点预料值的置信区间。(2)区间预料:将来预料值的一个区间,即期望序列的实际值以某一概率落入该区间范国内。区间的长度传递了预料不确定性的程度,区间的中点为点预料值.(3)箔度预料:序列将来预料值的一个完整的概率分布。依据密度预料,可建立随意置信水平的区间预料,但须要额外的假设和涉及困难的计算方法。5 .基本步骤(1)分析数据序列的变更特征。(2)选择模型形式和参数检验。(3)利用模型进行趋势预料。(4)评估预料结果并修正模型.6 .3.2随机时间序列系统中某因素变员的时间序列数据没有确定的变更形式,也不能用时间的确定函数描述,但可以用概率统计方法寻求比较合适的随机模型近似反映其变更规律,(自变量不干脆含有时间变域,但隐含时间因素)1 .自回来AR(P)模型(R:模型的名称P:模型的参数)(自己影响自己,但可能存在误差,误差即没有考虑到的因亲)(1)模型形式越小越好,但不能为0:E为0表示只受以前Y的历史的影响不受其他因素影响)y.=yt-+>yrt+Ir+t*式中假设:y,的变更主要刚好间序列的历史数据有关,及其它因素无关,e,不同时刻互不相关,e,及义历史序列不相关。式中符号:P模型的阶次,滞后的时间周期,通过试验和参数踊定:y,当前预料值,及自身过去观测值y-、y-是同一序列不同时刻的随机变量,相互间有线性关系,也反映时间滞后关系:y,-.y,-i、y,.同一平稳序列过去P个时期的观测值:巾-,、“自回来系数,通过计算得出的权数,表达y,依靠于过去的程度,且这种依靠关系恒定不变:J随机干扰误差项,是。均值、常方差。'、独立的白噪声序列,通过估计指定的模型获得。(2)识别条件当k>p时,有,=0或>,听从渐近正态分布N9"n)且(|中的个数W4.5%,即平稳时间序列的偏相关系数为P步截尾,自相关系数r,逐步衰减而不裁尾,则序列是AR(P)模型。实际中,一般AR过程的ACF函数呈单边递减或阻尼振荡,所以用PAeF函数判别(从P阶起先的全部偏自相关系数均为0)。(3)平稳条件一阶:MK1。二阶:1+t<kl-i<kI1<la6越大,自回来过程的波动影响越长久.(4)模型意义仅通过时间序列变量的自身历史观测值来反映有关因素对预料目标的影响和作用,不受模型变量相互独立的假设条件约束,所构成的模型可以消退一般回来预料方法中由于自变册选择、多重共线性等造成的困难。2 .移动平均MA(q)模型(D模型形式y,三e.-®Ie02g,-2-OpCf(2)模型含义用过去各个时期的随机干扰或预料误差的线性组合来表达当前预料值。AR(P)的假设条件不满意时可以考虑用此形式.总满意平稳条件,因其中参数0取值对时间序列的影响没有,AR模型中参数p的影响剧烈,即这里较大的随机变更不会变更时间序列的方向。(3)识别条件当k>q时,有臼相关系数G=O或自相关系数r,听从NS,ln(l+2且(nl>2/n(l+2Zr:)D的个数W4.5乐即平稳时间序列的自相关系数八为q步截尾,偏相关系数也逐步衰减而不敌尾,则序列是MA(q)模型.实际中,一般MA过程的PKF函数呈单边递减或阻尼振荡,所以用CF函数判别(从q阶起先的全部自相关系数均为0)。(4)可逆条件一阶:IOlKu二阶:8<k01+02<U当满意可逆条件时,MA(q)模型可以转换为AR(P)模型3 .自回来移动平均ARMA(P,q)模型(D模型形式y=1yt-+2y<z+,y”+£°Iel-2c<-?-0.t.式中符号:P和q是模型的自回来阶数和移动平均阶数:小和(I是不为零的待定系数;J独立的误差项:y,是平稳、正态、零均值的时间序列。(2)模型含义运用两个多项式的比率近似一个较长的AK多项式,即其中p+q个数比八R(p)模型中阶数P小。前二种模型分别是该种模型的特例。个ARMA过程可能是AR及MA过程、几个AR过程、AR及ARMA过程的迭加,也可能是测度误差较大的AR过程“(3)识别条件平稳时间序列的偏相关系数和自相关系数n均不被尾,但较快收敛到Q则该时间序列可能是ARM(p,q)模型。实际问题中,多数要用此模型。因此建模解模的主要工作是求解p、q和3、0的值,检验E,和y1的值。(4)模型阶数AIC准则:最小信息准则,同时给出ARMA模型阶数和参数的最佳估计,适用于样本数据较少的问题,目的是推断预料目标的发展过程及哪一随机过程最为接近。因为只有当样本量足够大时,样本的自相关函数才特别接近母体的自相关函数。具体运用时,在规定范围内使模型阶数从低到高,分别计算AIC值,最终确定使其值最小的阶数是模型的合适阶数.模型参数最大似然估计时lC=(n-<l)logo,+2(p+q+2)模型参数ift小二乘估计时AIC=nlog。j+(p+q+l)Iogn式中:n为样本数,。'为拟合残差平方和,d、p、q为参数。其中:P、q范围上线是n较小时取n的比例,n较大时取Iogn的倍数。实际应用中p、q一般不超过2。4.自回来综合移动平均ARlMA(P,d,q)模型(D模型识别平稳时间序列的偏相关系数5和自相关系数r4均不截尾,且缓慢衰减收敛,则该时间序列可能是RIM(p,d,q)模型。(2)模型含义模型形式类似ARMA<p,q)模型,但数据必需经过特殊处理。特殊当线性时间序列非平稳时,不能干脆利用ARMA(p,q)模型,但可以利用有限阶差分使非平稳时间序列平稳化,实际应用中d一般不超过2。若时间序列存在周期性波动,则可按时间周期进行差分,目的是将随机误差有许久影响的时间序列变成仅有短暂影响的时间序列。即差分处理后新序列符合ARM(p,q)模型,原序列符合ARIM(P,d,q)模型。3.3.3建模解模过程I.数据检验检验时间序列样本的平稳性、正态性、周期性、零均值,进行必要的数据处理变换.(1)作直方图:检验正态性、零均(ft.按图形GraPhS-直方图Ilistognun的依次打开如图3.15所示的对话框。图3.15将样本数据送入变址Variable框,选中显示正态曲线DiSPIaynormalcurve项,点击OK运行,输出带正态曲线的直方图,如图3.16所示。样本数据图3.16从图中看出:标准差不为1、均值近似为0,可能须要进行数据变换。(2)作相关图:检验平稳性、周期性。按图形GraPhS一时间序列TinICSerieS-自相关AUtOCOlrelations的依次打开如图3.17所示的对话框。图3.17将样本数据送入变址Variable框,选中自相关Autocorrelations和偏自相关PartiaIAUtQCOlTeIatiOnS项,暂不选数据转换TranSfOnn项,点击设置项Options,出现如图3.18所示对话框。MaximumNumberof1.ags:12ContinuebtandardtrrorMethod6IndependencemodelBartIett1SapproximationCancelHelpDisplay分EnCQrrNgtrCrrgaterforficla11c图3.18因为一般要求时间序列样本数据n>50,滞后周期k<n4,所以此处限制最大滞后数值MaximumNumberof1.ags设定为12。点击接着Continue返回自相关主对话框后,点击OK运行系统,输出自相关图如图3.19所示。Conricioncc1.lGIt51.aNumbex*:OQrrfCiCin图3.19从图中看出:样本序列数据的自相关系数在某一固定水平线旁边摇摆,且按周期性渐渐衰减,所以该时间序列基本是平稔的0(3)数据变换:若时间序列的正态性或平稳性不鲂好,则需进行数据变换。常用有差分变换(利用transform-CreateTimeSCrieS)和对数变换(利用TransformCompute)进行.一般需反笑变换、比较,直到数据序列的正态性、平稔性等达到相对最佳.2.模型识别分析时间序列样本,判别模里的形式类型,确定p、d、q的阶数。(1)判别模型形式和阶数相关图法:运行自相关图后,出现自相关图(图3.19)和偏自相关图(图3.20)Confl<kneol.hni1.agNumber>eicient图3.20从图中看出:自相关系数和偏相关系数具有相像的衰减特点:衰减快,相邻二个值的相关系数约为0.42,滞后二个周期的值的相关系数接近0.1,滞后三个周期的值的相关系数接近0.03。所以,基本可以确定该时间序列为ARMA(P,q)模型形式,但还不能确定是ARMA(1,1)或是ARMA(2,2)模型.但若前四个自相关系数分别为0.40、0.16、0.064、0.0256,则可以考虑用ARa)模型。另外,值得说明的是:只是ARMA模型须要检验时间序列的平稳性,若该序列的偏自相关函数具有显著性,则可以干脆选择运用AR模型。事实上,具体应用自相关图进行模型选择时,在视察ACF及PACF函数中,应留意的关键问题是:函数值衰减的是否快:是否全部ACF之和为-0.5,即进行了过度差分:是否ACF及PACF的某些滞后项显著和荷洁说明的峰值等。但是,仪依拳ACF图形进行时间序列的模型识别是比较困难的。参数估计:从(m,m-D起先试脸,一般到m=p+q="n。实际应用中,往往从(1,1)、(2,2),逐个计算比较它们的AIC值(或SBC值),取其值母小的确定为模型。(2)建立时间序列新变量无论是哪种模型形式,时间序列总是受自身历史数据序列变更的影响,因此需将历史数据序列作为一个新的时间序列变量。按数据转换transform建立时间序列CreateTimeSeries的依次绽开对话框,图3.21。图3.21在功能Function下拉框中选择变量转换的函数,其中:非季节差分Differences:计算时间序列连续值之间的非季节性差异。季节性差分SeasonalDifferences:计算时间序列跨距间隔恒定值之间的季节性差异,跨距依据定义的周期确定。领先移动平均Priormovingaverage:计算从前的时间序列数值的平均值。中心移动平均Centeredmovingaverage:计算围绕和包括当前值的时间序列数值的平均值。中位数RUnningmedians:计算困绕和包括当前值的时间序列的中位数。累积和CumulativeSUm:计算直到包括当前值的时间序列数值的累计总数。滞后依次1.ag:依据指定的滞后依次,计和在前观测量的值。领先依次1.ead:依据指定的领先依次,计算连续观测员的值。平滑Smoothing:以混合数据平滑为基础,计算连续观测量的值。以上各项主要用在生成差分变量、滞后变量、平移变量,并且还要关注差分,滞后、平移的次数,以便在建立模型、进行参数估计时,使方程达到一样。在依次Order框中填入在前或在后的时间序列数值间隔的数目。在新变显NewVariable框中接受左边框移来的源变用。在名称Name框中定义新变髭的名称,但必单击变更Change方能成立.单击OK运行系统,在原数据库中出现新变量列。另外,若需产生周期性时间序列的日期型变量,则按数据Data一定义日期DefineDates的依次绽开如图3.22所示对话框。图3.22在样本CaSeSAre栏中选择定义日期变量的时间间隔,在起始日期FirstCas。IS栏中设定日期变量第一个观测量的值,单击OK完成定义。3 .参数估计采纳最大似然估计或最小二乘估计等方法估计由、。参数值,并进行显著性检验。按分析AnaIyZe-时间序列Tineseries-ARlMA模型的依次绽开如图3.23对话框。图3.23在图3.23中:选择原时间序列变量进入因变圻枢:依据模型识别结果和建立的新时间变量,选择一个或多个变量进入自变量框:短哲不进行因变量的数据转换:及自变量的选择对应,依据模型识别结果或试验的思路设定P、(0、q的值;选择模型中包含常数项:分别单击保存和设巴按钮,绽开如图3.24和3.25对话框。图3.24图3.24中:在建立变量CreateVariable栏选择新建变址结果暂存原数据文件Addtofile项,也可选择用新建变址代替原数据文件中计算结果Replaceexisting项;在设定置信区间百分比ConfidenceIntervals下拉框选择95;在预料样本PredictCases栏选择依据时期给出预料结果的方法。Pool3ooi3%ICOntinUeConvergenceCriteriaMaximumiternlions:ParameterchangeSumofsquareschange:InitialVwUCSforEstimation6AutomaticCApplyfrompreviousmodelForecnstingMethodGUnconditionalleastsquaresConditionalleastsquaresUut.11<j(hrlCOHUtanIfor厂Ur;rhryirri11gUdriH,vhIiici;f11riiiiti;iliz;itinnDisplay0Initinlandfinalparameterswithiterationsummary1.InitinlandfinalpnrnmeterswithiterationdetailsFinalparametersonly图3.25图3.25中:在收敛标准ConvergenceCriteria栏选择迭代次数Maximumiterations,参数变更精度ParamCtCrChange、平方和变更精度SUmofsquareschange,当运算达到其中一个参数的设定,则迭代终止;在估计初始值InitiaIValuesforEstimation栏选择由过程自幼选择Automatic或由从前模型供应Applyfrompreviousmodel.般默认前者:在预料方法ForecastingMethOd栏选择无条件Un(X)ndiIional或有条件最小二乘法COndiCionaIleastsquares;在输出限制DiSPlay栏选择最初和最终参数的迭代摘要InitialandfinalparameterswithiterationSUmmary或具体资料detaiIs、或只显示最终参数FinaIParamelerSonly,单击OK,系统马上执行,输出信息如卜丁MODE1.:MOOJSplitgroupnumber:1Serieslength:48NoMissingdata.Meard,salgorithmwi11beusedforestimation.Conclusionofestimationphase.Estimationterminatedatiterationnumber7because:Sumofsquaresdecreasedbylessthan001percent.FINA1.PAR/NmbcrofStandard(1.ogIikeliAICS8C呢TERS:19969495.4639156.927832.54143residuals48>rror1.ihood-71516ResidualsAnalysisofDFAdj.45VariablesinBVariance:SumofSquares65.099923theModel:SEBResidualT-RATIOVariance1.4392678APPROX.PROB.ARI.02318739,31945836.0725835.94245925WU-.44871554.28829314-1.5564558.12660552NSTANT-02421308.25505018-.0949346.92478827Thefollowingnewvariablesarebeingcreated:NameFITJERR.11.C1.jUC1.-I1.abelFitfor弗本女招fromARIMA.MOojCONErrorfor样本效把fromARIMA.M0D_1CON95%1.C1.for样本敦据fromARINlA.M.1CoN95%UC1.for样本数据fromARIMA.HOOiCONSEP_1SEoffitfor样本彼况fromARIMA.MOD1CON各个输出统计量的意义:常数项:认为是取值恒为1的常数变量,其系数就是自变量为。时因变量的最优预料值,也称为预料基准值。系数:反映自变量对因变量影响的权重。标准误:表明样本数据的牢靠性。在(残差)参数近似听从正态分布条件下,系数加减两倍的标准误差近似等丁总体参数95%的置信区间。其值越小,宜信区间越窄;并且其对于系数的相对值越小,估计结果越精确。t统计量:估计系数及标准误差的比值,检验变量:的不相关性。一股给定5%显著水平,则拒绝原假设的0值位于95%的置信区间外,其肯定值必大于2。t概率值:其值越小,则拒绝原假设不相关性的证据越充分。其值接近0.05及t统计量接近2相对应。均值:度量变量的集中度,传递随机变量的位置信息.标准差:度量变量的离散度,传递随机变量的规模信息。平方和:残差平方和是很多统计量的组成部分,孤立考察无太大价值。准则:信息准则AIC和SBC用模型的选择,越小越好,但受白由度约束较为严峻。F校正:是模型中自变量对因变量变动的说明比例,度量方程预料闪变星的胜利程度,其是回来标准误差及因变显标准差比较的结果.另一个比较方法是口I来标准误差不超过因变量均值的10%则为好的模型。DW统计:用于检验随机误差项是否存在序列相关。1.N似然:用于模型比较和假设检验,越大越好。残差图:4 .模型检验检验新建模型的合理性。若检验不通过则调整(p,q)值,重新估计参数和检脸,反复进行直到接受为止。但模型识别、参数估计、检验修正Y个过程之间相互作用、相互影响,有时须要交叉进行、反复试验,才能蚊终确定模型形式。(1)相关图检验残差白噪声:因为白噪声过程是序列无关的,所以白噪声过程的自相关函数和偏自相关函数在自相关图中均为等于0的水平直线。(2)散点图检验残差独立性:以误差值为纵坐标、以预料值为横坐标,视察散点分布的匀称性、随机性。志向预料模型的预料误差肯定是不行预料的、无规律的、序列无大的。相应的DW统计量仅适用检验一阶序列。(3)直方图检验残差零均值:零均值仅检验残差序列无关,若正态分布则检验独立性。(4)概率图检验残差自相关:以显著性水平0.05计算X-O概率值,。(5)均方差检脸预料的效果:以预料误差的均方差最小为标准,留意预料误差仅及预料周期有关,而及起始时刻无关。5 .模型预料预料系统探讨对象的将来某时刻状态。列出预料模型,计算预料值.