-原始数据的处理方法..docx
其次章原始数据的处理方法原始数据的处理是数据分析中极为重要的内容。在本节中,我们将介绍原始数据的来源及其特点,着重阐述原始数据初始变换的几种方法,并利用例子进展演示。第一节原始数据的来源及其特点原始数据一般包括反映自然资源区域特征,如海况、气象、水文、地形、地貌、动植物等:反映区域社会经济条件和生产力水平,如人口及其人口密度、捕捞劳力、海疆而积、渔船数量、渔船功率以及渔业总产值、捕捞产值、养殖产值等。原始数据按其性质大体可分为(1)科学试验和观测数据:(2)社会经济统计三;(3)生产阅历数据;(4)有关部门的决策和目标数据:(5)定性资料的量化数据等。不同的数据有不同的来源。但归纳起来,主要的来源有:(1)国家统计部门和行业部门的历年统计资料,这些多为社会经济指标(2)有关业务部门的历年观测数据及其科学试验报告,这些多数为自然因素指标,如东海区渔业资源和环境观测数据;(3选择有代表性的单位或年度,进展实地典型调查所得的数据;(4)区域规划部门通过收集、调查、观看和计算积存的数据;(5)调查访问有实践阅历的劳动者、生产技术人员、科研人员以及治理人员所得的数据;(6)国家有关部门制定的进展规划、建设方案等决策数据;(7)其它方面的数据。我们将以上所获得的各种资料和数据成为原始数据。这些数据来源不同,其类型也不同。从利用分析的角度来看,这些数据有以卜几个主要特点:(I)不同的量纲。如渔业产值为元,渔业产量为公斤,水温为摄氏度,作业时间为天,航程为海里,捕捞努力气为吨、千瓦、艘、人数,CPUE为吨/天、吨/小时、吨/千瓦等。(2)数量级大小相差悬殊,有的数字仅是小数级,有的数字大到亿万。如渔业产值以亿万元或万元计算,而劳动生产率只有几十元到几百元:渔业资源量上千万吨或几万吨等。(3)大局部数据有肯定的随机性,特别是统计或观测的时间序列或偶测值,不管是自然指标还是经济数据,都有随机变化,均有明显的摇摆。(4)大量数据具有肯定的灰色度,运用上述方法收集来的数据绝大多数是区域内各样点的平均值或统计值,在时间上或空间上并不是一个精准的白色参数,而是一个有上限、下限的灰色数。如某调查船进展的渔业资源和环境调查,其所得的数据只能是某一点某一时刻的数据值,但由于条件和仪器设备的限制会使数值产生误差,这一误差值的多少无法知道,因而产生了灰区。如某年某区的降水量,是该区内各次实际观测纪录的平均数,由于测量方法不同和在时间计算上引起的误差等,是无法知道的。同样的问题在一些经济统计数字中也存在。因此,严格地说,收集来的数据绝大多数是灰色参数,都具有不同程度的灰色度。其次节原始数据白化和初始变换的几种方法一、原始数据的取值和白化对于绝大多数灰色参数来说,需要进展白化或淡化处理,以提高白色度,削减灰色度。也就是说通过信息的不断补充,使灰色参数渐渐成为一个比较接近实际的数值。数据白化处理的方法主要有:(1)直接承受距样点最近观测站的多年平均值。例如海水温度和盐度等,可承受多年来的观测平均值或近几天的平均值。依据各个因素指标的等值线图,利用插入法计算其数值。如表层水温、盐度、海底地形等指标,各代表样点不完全有现成的准确观测值,可在“等水温线图”、“等盐度图”、“地饰线图”上,利用插值法计算出其白化值。结合实际状况和数据特征,确定合理的数据。如反映海洋环境质量的指标有有机质、含氮量、含磷量等。在使用时,我们不行能把全部的因子都输入模型,为了计算上的便利,可以归结为一个综合指标。即用该区域内最资料,查出各样点的各项因素指标,然后用“极差变换”的方法求出变换后的数据,相加即可得到一个综合性数字。这样,可解决各因素间量纲不同和数量级大小相差悬殊的问题。(4)对经济指标进展推测。海洋经济的分类划区应当有相对的稳定性,同时应用的综合指标又应反映海洋经济的动态特征,所以,在使用相应的指标数据时,就需要先对指标数据进展进展推测,然后依据推测值进展分类划区。推测的方法很多,常用的是灰色系统GM(1,1模型和指数递增率模型。承受具有一样权数的相对数值。依据统计学原理.,各个个体应当是等权的,但实际上各种统计对象个体不等积,不等形,也即存在着不等权问题。例如,各样点的海疆面积、人口产量、产值等指标,确定值差异很大,无疑是不等权的。假设用特定范国内海疆比重、人口密度、单位平均产量、人均产值等相对数来表示,便可以解决各样点同项因素不等权的问题。二、常用的几种数据变换方法由于原始数据存在着上述特点,进展统计分析建立数学模型有肯定的困难和限制,因此需要依据所建数学模型的类别,对原始数据进展变换。变换的目的主要是:(1)使指标数据尽可能呈正态分布:(2)统一变量指标间的量纲;(3)使两变量指标的非线性关系变换为线性关系;(4)用一组的、指标数量较少的、相互独立的变量,代替一组有相互联系的原始变量指标。不同的数学模型对指标变量的要求不同。大多数的多元统计分析,要求变量总体上听从多元正态分布,且要求量纲全都。如判别分析要求变量呈正态分布;回归分析则要求因变量呈正态分布,要求各自变量与因变量之间有亲热的相关关系。而聚类分析则要求各变量量纲全都,变量间相互独立。因此,数据的变换肯定要依据数学模型的要求,有的放矢地进展。常用的变换方法主要有:(一)标准化变换计驿公式为:X-X(i=1.,2,N样点数;j=1.2,,P变量数)式中:X为变换后的数据;UX1.J为原始数据;.XijX为第j变量的算术平均值,即元=一;ijNs.为变量j的标准差,即si=IqT-二'一VNI变换后的各变量数据平均值为0,方差为1,呈标准正态分布,各变量间有了统一的量纲,而两个变局在变换前后的相关程度不变。从几何意义上讲,标准化变换相当于座标原点移至重心(即平均值)位置,标准化变换适用于量纲不同且数量级大小不一的连续性数据.我们现在以陈军的博士学位论文渔业资源可持续利用评价实证分析中有关数据进展说明。1978-1984年东海区渔业资源可持续利用系统的资源环境子系统如下:年份1978197919801981198219831984X.2.642.722.732.722.642.632.54X,63.1959.1246.4851.0648.1838.641.03相43.641.156.958.562.264.567.7XS69.78559.44651.04743.15636.68429.15224.835X52.6092.2441.5471.4791.4351.2991.258X。1.1781.051.0380.9560.9350.8750.891其中:X为渔获物的养分级,单位为级;X,为优质鱼类产量占海洋捕捞产量的比重,单位为%;X为非选隹性渔具捕捞产量占海洋捕捞产量的比重,单位为%:X4为单位机动渔船的平均捕捞产量,单位为吨/艘;X5为机动渔船每吨位的平均捕捞产量,单位为吨/船吨位;X6为机动和非机动渔船每千瓦的平均捕捞产量,单位为吨/千瓦。在资源环境子系统中,各评价指标的单位不一样,因此需要进展初值化。现分别求出序列X,X.X5网依丁均XA值及其标准差。7=(X÷X÷.÷X)/7=(2.64+2.72+.+2.54)/7=2.66I197819791984又=(X+X+.+X)/7=(63.19+59.12+.+41.03)/7=49.672197819791984又=(X+X+.+X)/7=(43.6+41.1+.+67.7)/7=56.363197819791984X=(X+X+.+X)7=(69.78+59.44÷.+24,83)/7=44.874197819791984X=(X+X+.+X)17=(2.61+2.44+.÷1.26)/7=1.70519719791984X=(X+X+.+X)/7=(1.18+1.05+.+0,89)/7=0.996197819791984S=I1."I=.(2.64-2.66)2÷-(2.54-2.66)2=nn7VN-I7-1i(X-X)21.C_i'aii(63.19-49.67)2+.(41.03-49.67)2ftQQ2V-17-17-1(43.656.36)2+.(67.756.36)2=1247-1(69.78-44.87)2+.(69.78-44.87)2=行28(2.61-1.7)2+.(1.26-1.7)27-1-U.OZS3=0.11I(1.18-0.99)2+.(0.89-0.99)2则数据变换为:X'=I1.2.64-2.660.07=-0.29其他数据变换类同。则获得经过变换后的资源环境子系统的各个序列:年份1978197919801981198219831984x,-0.290.861.000.86-0.29-0.43-1.71X21.511.05-0.360.15-0.17-1.23-0.96X3-1.25-1.490.050.210.570.791.11X,41.530.900.38-0.11-0.50-0.97-1.23X51.751.05-0.29-0.43-0.51-0.77-0.85X,61.710.550.44-0.31-0.50-1.05-0.90(一)极差变换计算公式为:vX-XijjmnjX-Xjmaxjmin式中:X为变换后的数据;UXij为原始数据:Xinwx为第j变最原始数据的最大值;Xjmin为第j变量原始数据的最小值。极差变换后的数据有了统一的量纲,其最大值为1,最小值为0,全部数据变化在01之间。变换前后两两变量之间的相关程度不变,其儿何意义相当于把座标原点移至最小值位置。极差变换适用于量纲不同、数量大小不一的连续型的原始数据的变换。同样以上述例子进展分析。先求出各个指标的最大值和最小值。它们分别为:X=2.73X=2.54ImaxX=63.19IminX=38.602maxX=67.702minX=41.103maxX=69.793minX=24.844maxX=2.614minX=1.265maxX=1.185minX=0.886max6min则其数据变换为:丫,X-12.64-2.54=X11Imm5311X2.73-2.54ImaXImn其余数据转换类同。则可获得经过极差变换后的资源环境子系统各序列:年份1978197919801981198219831984X,10.530.951.000.950.530.470.00X,21.000.830.320.510.390.000.10X,30.090.000.590.650.790.881.00X,41.000.770.580.410.260.100.00X,51.000.730.210.160.130.030.00X60.990.570.530.250.1800.04I三)均值化变换计算公式为:XX-=-vXj式中:X为变换后的数据;Xij为原始数据;X为第j变量的平均值。变换后的数据有了统一的量纲,数值均大于0,且集中在1四周。其数学期望值为1,而变量与平均数之差的期望值为0=此变换适用于比例变量,如长度、体积、质量等。我们仍旧以上述数据作为例子进展分析,我们已求得各个序列的平均值,则相应的变换值为:X,=1.=1.=o.99HX2.66I其余数据类同。则可获得资源环境子系统经过均值化后的序列:年份1978197919801981198219831984Xj0.991.021.031.020.990.990.95X,21.271.190.941.030.970.780.83X,30.770.731.011.041.101.141.20X41.561.321.140.960.820.650.55X,51.531.320.910.870.840.760.74X61.191.061.050.970.940.880.90(四)初值化变换计算公式为:XX-iijXi1.式中:X为变换后的数据;VXU为原始数据;Xi1.为第i变量的初值(第一个数据)。初值化变换后的数据具有了统一的量纲,各数值均为初值的倍数,便于分析因素之间序列的关联性,因此适用于处理社会经济方面的统计数据。我们仍以上述数据作为例子进展分析,利用上述公式进展初值化变换:XOMX,=1.1.=±i=1.,>X2.64I1.2.7264=1.03X254X'=-1.1.=_=0,96X2.6411其余计算类同。则可获得资源环境子系统经过初值化后的序列:年份1978197919801981198219831984X,1.001.031.031.031.001.000.96X21.OO0.940.740.810.760.610.65X31.000.941.31).341.431.481.55X41.000.850.730.620.530.42036X'51.000.860.590.570.550.500.48X,61.000.890.880.810.790.740.76(五)模块化变换计算公式为:X=,'XijikA=I式中:X为变换后的数据;UXik为第j个变量的第k个数据。这种变换就是将时间数据列,逐年作一次累加,组成的数据列,即生成数时间序列。这种变换可用于时间序列的推测。这就是灰色系统理论建立数学模型、进展推测、动态分析等的建模机理和方法。我们以上述数据作为例子进展分析,利用上述公式进展模块化处理:X'=x=X=2.64I1.1*11*=1X'=X=x+X=2.64+2.72=5.36121112*=1X'=Xx=X+x+x=2.64+2.72+2.73=8.0913k111213'=7=X+X+.+X=2.64+2.72+.+2,54=18.6217IkU1217J1.=I其余计算类同。则可获得资源环境子系统经过初值化后的序列:年份1978197919801981198219831984x,2.645.368.0910.8113.4516.0818.62X,263.19122.31168.79219.85268.03306.63347.66X,343.684.70141.60200.10262.30326.80394.50X,469.78129.23180.28223.43260.12289.27314.11X,52.614.856.407.889.3110.6111.87X,61.1782.233.274.225.166.036.92(六)滑动平均变换计算公式为:X+X+X3为避开数字上的循环,也可承受下式计算:X+2X+X=1iii4_X+X+X+X+Xj比X=r*+*i5这种变换可以弱化时间数据的随机性,不同程度地消退了收集统计数据时的误差,为作进一步数据处理提高了牢靠性和准确性。我们以上述数据作为例子进展分析,利用上述公式进展滑动平均变换处理:S2X+X2×2.64+2.720X=-uU-=2.67U33X'=X“+XJX:2.64+2.72+2.731.1233X,=XJXjX272+273+272-272333X,17X+2×x2.63+2×2.54U-=2.57其余计算类同。则可获得资源环境子系统经过滑动变换后的序列:年份1978197919801981198219831984x,2.672.702.722.702.662.602.57X,261.8356.2652.2248.5745.9542.6040.22X,342.7747.2052.1759.2061.7364.8066.63X466.3460.0951.2243.6336.3330.2226.27X52.492.131.761.491.401.331.27X,61.141.091.010.980.920.900.89(七)弱化克子和强化算子变换设X为原始数据序列,D为缓冲算子,当X分别为递增序列、递减序列或波动序列时:(I)假设缓冲序列XD比原始序列X的增速度1或递减速度)减缓或波动削减,我们称缓冲算子D为弱化凫子;(2)假设缓冲序列XD比原始序列X的递增速度(或递减速度)加快或波动增大,则称缓冲算子D为强化算子。I.弱化算子变换设原始数据序列X=(x(1),X(2),X(n),令XD=(x(1)d,X(2)d,,X(n)d)其中:X(k)d=1X(八)+X(k+1.)+X();n-k+k=1.,2,,n;则当X为单调递增序列、单调递减序列或波动序列时,D为一阶弱化算子,XD为经过一阶弱化后的缓冲序列。假设令XDz=XDD=(x1)d2,X(2)d2,,X(n)<12,其中X(k)d2=!×(k)d+x(k+1.)d+x(n)d;n-k+k=1.,2,n;则D2对于单调递增、单调递减或波动序列,称为二阶弱化算子,XDz为经过二阶弱化后的缓冲序列。2.强化算子变换设原始序列和其缓冲序列分别为X=(X(1),X2),,X(n),XD=(x(1;d,X(2)d.,X(n)d),X+x+x(k-1.)+2(八)其中X(k)d=:k=1.,2,,n-1,且X(n)d=x(n);则当X为单调递增序列、单调递减或波动序列时,D为一阶强化算子,XD为经过一阶强化后的缓冲序列。假设令XDz=XDD=(x(1)d2,X(2)d2,,X(n)d2),其中X(n)ch=x(n)d=x(n);x(1.)d+x(2)d+x(k-1.)d÷kx(k)dx°)出=2-;k=1.,2,n-1.;则D2对于单调递增序列、单调递减或波动序列,称为二阶强化算子,XD2为经过二阶强化后的缓冲序列。我们以浙江某市某区的渔业产值数据(1983-1986年)为例进展分析,X=(10155,12588,23480,35388),单位为百元,其增长势头很猛,1983-1986年每年平均递增51.6%,尤其是1984-1986年,平均每年递增67.7%但是由于渔业资源的有限性以及受捕捞力量和技术的限制,其渔业产值不行能无限地增长下去,今后也不行能始终保持这么高的进展速度。假设用现有数值直接建模推测,其推测结果人们根本无法承受。经过认真分析和探讨,我们认为增长速度高主要是由于基数低,而基数低的缘由则是过去对渔业资源的利用缺乏。为此,在今后的渔业产值推测中,要实行弱化序列增长趋势,引入二阶弱化算子。其具体计算过程为:41.)d=×(10155+1.2588+23480+35388)=204034-1+1x(2)d=!X(12588+23480+35388)=238194-2+1x(3)d=!×(23480+35388)=294344-3+1x(4)d=一一!×35388=353884-4+1则一阶缓j中序列XD=(20403,23819,29434,35388)。x(V)d2=X(20403+23819+29434+35388)=272604-1+11Xd2=×(23819+29434+35388)=295474-2+1(3)2=!X(29434+35388)=324114-3+11x(4)d2=X35388=353884-4+1则得到二缓,中序歹JXD2=(27260,29547,32411,35388)。我们利用二阶缓冲序列XD2建立GM(1,1)模型推测得,1986-2023年该市区的渔业产值平均每年递增9.4%,这一结果根本可以承受,与实际状况也较为吻合。