最小二乘法在误差分析中的应用0001.docx
误差理论综述与最小二乘法讨论摘要:本文对误差理论和有关数据处理的方法进行综述。并且针对最小二乘法(1.S)的创立、发展、思想方法等相关方面进行了研究和总结。同时,将近年发展起来的全面最小二乘法(T1.S)同传统最小二乘法进行了对比。1 .误差的有关概念对科学而言,各种物理量都需要经过测量才能得出结果。许多物理量的发现,物理常数的确定,都是通过精密测量得到的。任何测试结果,都含有误差,因此,必须研究,估计和判断测量结果是否可靠,给出正确评定。对测量结果的分析、研究、判断,必须采用误差理论,它是我们客观分析的有力工具1.1 测量基本概念一个物理量的测量值应由数值和单位两部分组成。按实验数据处理的方式,测量可分为直接测量、间接测量和组合测量。直接测量:可以用测量仪表直接读出测量值的测量。间接测量:有些物理量无法直接测得,需要依据待测物理量与若干直接测量量的函数关系求出。组合测量:如有若干个待求量,把这些待求量用不同方法组合起来进行测量,并把测量结果与待求量之间的函数关系列成方程组,用最小二乘法求出这个待求量的数值,即为组合测量。1.2误差基本概念误差是评定测量精度的尺度,误差越小表示精度越高。若某物理量的测量值为y,真值为Y,则测量误差dy=y-Y0虽然真值是客观存在的,但实际应用时它一般无从得知。按照误差的性质,可分为随机误差,系统误差和粗大误差三类。随机误差:是同一测量条件下,重复测量中以不可预知方式变化的测量误差分量。系统误差:是同一测量条件下,重复测量中保持恒定或以可预知方式变化的测量误差分量。粗大误差:指超出在规定条件下预期的误差。1.3等精度测量的随机误差当对同一量值进行多次等精度的重复测量,得到一系列的测量值,每个测量值都含有误差,这些误差的出现没有特定的规律,但就误差的总体而言,却有统计规律。1.3.1 正态分布通过对大量的测量数据的观察,人们发现测量列的随机误差有以下几个特征:(1)绝对值相等的正误差与负误差出现的次数相等,即误差的对称性;(2)绝对值小的误差比绝对值大的误差出现的次数多,即误差的单峰性;(3)在一定的测量条件下,随机误差的绝对值不会超过一定界限,即误差的有界性;(4)随着测量次数的增加,随机误差的算术平均值趋于零,即误差的抵偿性。正态分布曲线如下图1-1所示。正态分布时区间(田。,叶。)的面积占总面积的6&27%;(卜1.96o,i+1.96o)的面积占总面积的95%;区间(氏2.58o,R+2.58O)的面积占总面积的99%。图1-1.正态分布曲线1.3.2 t分布t分布是小样本分布,小样本分布一般是指n<30。t分布适用于当总体标准差。未知时用实验标准差S代替总体标准差。,由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等。关于t分布的早期理论工作,是英国统计学家威廉,西利戈塞特(WiliamsealyGosset)在1900年进行的。1.4系统误差系统误差是由固定不变的或按某种规律变化的因素造成的,这些误差因素可能是由于:(1)测量装置的原因:仪器设计上的缺欠,仪器零件制造和安装的不正确,仪器附件的制造偏差。(2)测量环境的原因:测量过程中温度、湿度等按一定的规律变化。(3)测量方法的原因:采用近似的测量方法或近似的计算公式引起的误差。(4)测量人员的原因:由于测量人的个人特点导致的测量误差。系统误差具有确定的规律性,这与随机误差有根本区别。对于测量中存在的较为显著的系统误差,可以通过一些检验方法和手段发现。如:1.通过实验对比检验系统误差;2.通过理论分析判断系统误差;3.对测量数据进行直接判断;4.用统计方法进行检验。1. 5粗大误差测量数据中包含随机误差和系统误差是正常的,只要测量误差在一定的范围内,测量结果就是正确的。但当测量者在测量时由于疏忽造成错误读取示值,错误纪录测量值,错误操作以及使用有缺欠的计量器具时,会出现粗大误差,此数据的误差分量明显偏大,即明显歪曲测量结果。对于粗大误差,有以下几种判别方法:(1)莱依特准则(3。准则):若对某一物理量等精度重复测量n次,得测量值为X2,弋M如果某测得值的残差大于3倍的标准差,即lvl>30,该数据为异常数据,应剔除。莱依特准则的合理性是显然的,对服从正态分布的随机误差,其残差落在(-3o,3o)以外的概率仅为0.27%,当在有限次测量中发生的可能性很小,认为是不可能发生的。(2)肖维勒准则:若对某一物理量等精度重复测量n次,得测量值Xl,X2,X3X”,若认为Xj为可疑数据,若此数据的残差IvDZ。,则此数据为异常数,应剔除。实用中Z<3,这在一定程度上弥补了3o准则的不足。Z是与测量次数n有关的系数。其关系见表l-2on3456789IO11Z1.381.531.641.731.801.861.921.962.00n121314151617181920Z2.032.072.102.132.152.172.202.222.24表1-2(3) I检验准则(罗曼诺夫斯基准则):罗曼诺夫斯基准则又称t检验准则,其特点是首先剔除一个可疑的测得值,然后按t分布检验被剔除的测量值是否为异常值。(4)格罗布斯准则。(5)狄克逊准则。2.测量的不确定度测量数据或经数据处理给出的最终结果都不可能是客观真值,只是被测量的近似值(或估计量)。因此,只给出被测量的估计值是不够的,还必须对估计值做出精度估计。测量或结果的精度估计用“不确定度”这一参数表征。它表征被测量的真值所处的量值散布范围的评定,反映了由于误差存在而对被测量值不能确定的程度。测量不确定度涉及到测量误差的性质、分布及测量方法等。不确定度的表述是数据处理的基本要求。2.1 不确定度的定义与分类测量不确定度是指测量结果的不肯定,是表征被测量的真值在某个量值范围的一个估计,是测量结果含有的一个参数,用以表示被测量值的分散性。这种测量不确定度的定义表明,一个完整的测量结果应包含被测量值的估计与分散性参数两个部分。如被测量Y的测量结果为y±U,其中y是被测量的估计,它具有的测量不确定度为U。不确定度从评定方法上可分为两类:A类分量和B类分量。用统计分析法来评定的不确定度称为A类不确定度评定,当测量误差服从正态分布时,以标准差表示称为标准不确定度,用符号U表示,口=$。不能由统计分析法评定的不确定度称为B类不确定度评定,A类以外的不确定度均属于B类不确定度。测量误差和测量不确定度是误差理论中两个重要的概念,它们具有相同点,都是评价测量结果质量好坏的重要指标,但它们又有明显的区别。2. 2提高测量精度的途径在拟定或设计测量方法时,需要确定测量的不确定度。测量的总不确定度应根据被测量的精度要求恰当的给以规定。反过来,要想提高测量的精度,就应尽可能的减小最后结果的总不确定度。根据不确定度的合成关系,可从下面几方面着手。(1) 控制测量的误差因素;(2) 选择有利的测量方案;(3) 控制误差的最大分盘。3.测量数据的处理无论哪个学科,在做实验的过程中,测得实验数据之后,都必须对数据进行一系列的加工和运算,这就是数据处理过程。因此,针对数据处理,这里介绍作图法、逐差法、最小二乘法和回归分析方法。3.1用作图法处理数据作图法处理数据是指在实验中,进行测量以后,把相关数据做成曲线图,然后通过曲线来求未知量的方法。作图法能直观形象的表达两个或两个以上变量间的变化关系。利用图线特别是直线,可以方便地求出斜率,截距以及包含在斜率和截距中的未知量。通过作图法处理数据可以减小随机误差影响,发现粗大误差,并能消除某些系统误差。作图法简单易行,被广泛采用。3. 2逐差法处理数据为了在数据测量中,尽量减少误差,通常采用多次测量。但是在等间隔线性变化测量中,若仍采用一般的求平均值的方法,可以发现只有最后一次测量和第一次测量起作用,所有的中间测量值全部抵消。因此,这样的数据处理方法无法反映多次测量的特点,损失掉很多信息。逐差法可弥补这种不足,逐差法的数据处理原则是:所有数据都要用上,但每个数据不能重复使用。一般情况下,用逐差法处理数据需具备两个条件:1.函数具有线性关系;2.自变量是等间距的,且测量次数为偶数次。逐差法处理数据就是把所测得的偶数组数据按自变量由大到小或由小到大的顺序依次排列,然后等分为前后两大组,再将每大组的对应项依次相减。3. 3最小二乘法处理数据n.I:v2最小二乘法原理可以表述:在V二最小的前提下求得的未知量值,是未z=l知量的最佳值(最可信赖值)。下面给出一般情况的证明:为了求得t个不可直接测量的未知量X,y2,了3匕,可利用直接测量量zj2x3与未知测量量的函数关系,4=/(XI,X2,X3X)y2=f2(XI,X2,x3xl)y-fn(匕,X2,X3Xt)通过对直接测量量X/进行测量,得到测量数据/1"2,73In,若D=I,则可由上式直接解方程组得未知量。由于测量数据不可避免地包含测量误差,所以所得结果WX3X/也包含测量误差。为了提高测量结果的精度,应增加测量次数,以便利用随机误差的抵偿性减小误差对测里结果的影响。故可能有n>l,当等精度测量时,测量数据与直接测量量I的最佳估值二的残差应满足最小,即:ZR=ZQi-y)2=mini-1i-l3.4回归分析回归分析(RCgreSSiOnAnaIySiS)是英国生物学家兼统计学家高尔顿(GaltOn)在1889年出版的自然遗传一书中首先提出,是处理变量之间相关关系的一种数理统计方法。由于相关变量之间不存在确定性关系,因此,在生产实践和科学实验所记录的这些变量的数据中,存在不同程度的差异。回归分析就是应用数学方法,对大量观测数据进行处理,从而得到比较符合事物内部规律的数学表达式。4.最小二乘法的创立、发展及其思想最小二乘法是提供“观测组合”的主要工具之一,它依据对某事件的大量观测而获得“最佳”结果或“最可能”表现形式。如已知两变量为线性关系y=a+bx,对其进行n(n>2)次观测而获得n对数据。若将这n对数据代入方程求解a,b之值则无确定解。最小二乘法提供了一个求解方法,其基本思想就是寻找“最接近”这n个观测点的直线。最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。作为其进一步发展或纠正其不足而采取的对策,不少近现代的数理统计学分支也是在最小二乘法基础上衍生出来的。正如美国统计学家斯蒂格勒(S.M.StigIer)所说,“最小二乘法之于数理统计学犹如微积分之于数学”。天文学和测地学的发展促进了数理统计学及其他相关科学的发展。丹麦统计史家哈尔德曾指出天文学在数理统计学发展中所起的作用。“天文学自古代至18世纪是应用数学中最发达的领域。观测和数学天文学给出了建立数学模型及数据拟合的最初例子,在此种意义下,天文学家就是最初的数理统计学家。天文学的问题逐渐引导到算术平均,以及参数模型中的种种估计方法,以最小二乘法为顶峰。”这也说明了最小二乘法的显著地位。4.1 勒让德创立最小二乘法现行的最小二乘法是勒让德(A.M.1.egendre)于1805年在其著作计算彗星轨道的新方法中提出的,该书有80页,包含8页附录,最小二乘法就包含在这个附录中。勒让德之所以能做出这个发现,是因为他没有因袭前人的想法一要设法构造出k个方程去求解.他认识到关键不在于使某一方程严格符合,而在于要使误差以一种更平衡的方式分配到各个方程。4.2 高斯的正态误差理论早在17世纪,伽利略在其名著关于两个世界的对话一托雷密与哥白尼(1632)中,就讨论了随机误差及其分布的问题。虽然他并未提出这个名词,但他提出了随机误差的分布曲线应有图4-1的形状:1.f关于。对称(即f(-£)=f(£),这表示正负误差有同等出现的机会);Zf在两边单调地衰减至0,即大误差出现的机会较小,很大误差的机会几乎为0。图4-1.a是误差大小,f(a)是a这样的误差发生的概率1809年,高斯发表论著关于绕日行星运动的理论。在该书末尾,他写了一节有关“数据结合”的问题,以极其简单的手法导出误差分布一一正态分布,并用最小二乘法加以验证。关于最小二乘法,高斯宣称自1795年以来他一直使用这个原理。这立刻引起了勒让德的强烈反击,他提醒说科学发现的优先权只能以出版物确定。现在一般认为,二人各自独立地发明了最小二乘法,尽管早在10年前,高斯就使用这个原理,但第一个用文字形式发表的是勒让德。高斯较之于勒让德把最小二乘法推进得更远,他由误差函数推导出这个方法并详尽阐述了最小二乘法的理论依据。其推导过程如下:设误差密度函数为f(x),真值为X,n个独立测定值为xl,x2,xn由于观测是相互独立的,因而这些误差出现的概率为:1.(X)=1.xx,XX)=f(x一x)(x一x).f(xx)要找出最有希望的误差函数应使1.(X)达极大,高斯认为即就是X的估计值,并使1.(X)取得极大值。对式两端取对数得:In1.(x) = zfh(xx)i(2)din1.(X)fx*x)再对式求导:二Z;则有_Q6.6.i?X)=上式求对Xi偏导数次xSx,而iniZCY-八°"1(i牛n)_乙XHA-O-Cc÷T岩将、Z=Ig(X)=cx+b可得2g(XXZT)/星c6-X口)+b=c(x-X)+Z2/?=0/7/=1/=1因寸优1.)=。可以推出b=o,则有g(x)=f(x)/(x)=c,181积分可得()=ke2cx由"(x)x,应有c<o,Mzc=O?,可得一8r_1理j2r,则有"X)=2.oe202,此即为正态分布N(OO2)。这样可知,。的误差密度函数为:(J2',0)-nexp一kI2(x一x)2/=1O(要此式达到极大值,必选取X之值而使表达式乙Xii)2/=1达极小值,于是可得X,%2X.X的最小二乘估计法。综上可知,勒让德和高斯发现最小二乘法是从不同的角度入手的:一个是为解线性方程组,一个是寻找误差函数;一个用的是整体思维,考虑方程组的均衡性,一个用的是逆向思维,首先接受经验事实;一个是纯代数方法,一个致力于应用。相比而言,高斯不愧为数学王子,他把最小二乘法推进得更远、更深刻,这极大地推进了数理统计学的发展。5.全面最小二乘法(T1.S)与最小二乘法对比研究传统的平差问题都是采用最小二乘法来解决的。对非线性函数模型线性化的习惯作法是,将非线性函数模型按泰勒级数展开,保留一次项,略去二次及二次以上的高次项。它是建立在观测值和未知数近似值与观测值的真值和未知数的真值都充分接近的基础上的。如果该条件不满足,线性化必然会影响到线性函数模型的真实性,从而影响平差质量。全面最小二乘法(T1.S)是上世纪70年代发展起来的一种新的数据处理方法,已经广泛地应用于声学、自动控制、系统识别、信号处理等各个学科。该方法从一个新的角度来研究线性矛盾方程组,全面考虑了观测向量与系数矩阵中的误差,更符合实际情况。5.1 全面最小二乘法原理无论是直接使用广义逆阵A+还是使用A的奇异值分解(SVD)求解最小二乘问题,它们都是求X使之满足:Ilell2=min(1)及b+e£range(A)其中"*为范数,定义为:Ilell二八22ii=l且矩阵A的值域定义为加7吆,;A=AX对某个X£R-因此,最小二乘问题等同于用一个最小的e去扰动b以便b+e可以用A的各列来预测。或者说,一般最小二乘问题只考虑了观测向量b的扰动,而没有考虑系数矩阵A的扰动。显然,更合理的方法是同时考虑b和A二者的扰动。这就是全面最小二乘(T1.S)的基本思想。换句话说,在T1.S问题中,我们考虑矩阵方程:(2)(A+E)X=b+e的求解。(2)式可以变换为(W+-eE)C、(3a)或(5+O)Z=0(3b)其中於,。二,”这样一来,对齐次方程的全面最小二乘解可以简单表示为:求一个解向量Z使得:IlDll=min(4)一百升回WDW=(货IId)V2.式中,FrobeniUS氾数F(5)oI=J7=15.2T1.S与1.S在数据处理方法对比研究5.2.1设计平差网形,给出已知条件设计一平差网形如图5-1,已知A,B,C,D,Pl,P2,P3,P4,4点的坐标,坐标如下表5-2O图5-1.平差网形息.冬AA537IA1.U>826H47911002(位225.851CIO(M9.229537827%U而92172X(SIC27.1)86P1."5Jill448o500P3羽彻了55OIK29()P3437S7.5796K614J141()S4£64H67.981表5-2.已知点的真实坐标根据已知点坐标求出各个边长的真实长度,分别为:1.l=5760.7132m,1.2=5187.3387m,1.3=7838.8726m,1.4=5483.1580m,1.5=5731.8220m,1.6=8720.1288m,1.7=5598.6018m,1.8=7494.8989m,1.9=7493.2662m,1.I0=5438.4036m,1.ll=5487.0595m,1.12=8884.5594m,1.13=7228.3699m,5.2.2设计两种方案把PI,P2,P3,P4点作为待定点,对以上网形进行同精度观测,为了便于比较设计2组观测值,方案1为观测值与真实值相差不大的情况,即待定点坐标与真实坐标相差不大的情况,此时系数矩阵误差不大;方案2为观测值与真实值相差较大的情况,即待定点坐标与真实坐标相差较大,此时系数矩阵误差较大的情况,2种方案观测值如下:方案1:同精度测得如图1中的13个边长,其结果为1.l=5760.706m,1.2=5187.342m,1.3=7838.880m,1.4=5483.158m,1.5=5731.788m,1.6=8720.162m,1.7=5598.570m,1.8=7494.881m,1.9=7493.323m,1.10=5438.382m,1.ll=5487.073m,1.12=8884.587m,1.13=7228.367mo方案2:同精度测得如图1中的13个边长,其结果为1.l=5761.706m,1.2=5186.342m,1.3=7837.880m,1.4=5484.158m,1.5=5730.788m,1.6=8721.162m,1.7=5597.570m,1.8=7493.881m,1.9=7492.323m,1.10=5437.382m,1.ll=5488.073m,1.12=8883587m,1.13=7229.367m05.3精度比较与分析表5-3为以上两节获得的数据,以及真实坐标与经平差以后的坐标值的比较:点旺更实任林最小:乘法一面最小二天揩方案1珠2案1.方案21.HI椭坐标485S0274G4BM274J.485841275:485RQ2754455Sil27351Il坐标6050U硼O605帕4982W制4971Ml5力口4981605014979横坐次48681.389O4B6&J.388勺48681.39»O4S681.3KS4486B1.3B911很世归552900330152902550J52911550I8290155DIS2987阿437ft718B0A370IH79376718B943761IB814?7ZIBS13型机57%!161405761405T964613157WS6B957ME6142m408J13IB040841317S40刎工3lfi94H科&3179M8413182蚣坐标S49«7婀*WW7:Iu(4XR-'.fiJJ7M9H14图53两种数据处理方法平差结果(单位m)由上表可以看出:最小二乘法处理方案1的数据精度可以达到0.1mm,而处理方案2的数据精度的只能达到Imm。如果方案2中观测值误差更大一点,结果误差可能会更大。由此可见:最小二乘在处理非线性函数模型平差的时候,适用于待定点近似坐标与真实坐标相差很小的情况,相差较大的时候,由于最小二乘没有考虑系数矩阵的误差导致精度不高,数据可靠性不高。(2)全面最小二乘处理方案1和方案2数据精度都可以达到0.1mm甚至更高。由此可见:全面最小二乘在处理非线性函数模型平差的时候,由于考虑了系数矩阵的误差,所以对于两种方案都能达到要求,平差出来的数据符合要求,数据可靠性有保障。5.3结论最小二乘在处理非线性函数模型平差时,仅仅适用于待定点近似坐标与真实坐标相差不大的情况,即观测值误差不是很大的情况下,反之,则数据可靠性可能受到影响,要进行多次平差来验证。而采用全面最小二乘法则可以兼顾系数矩阵和观测值两者的误差,数据精度符合要求,可靠性得到保证,但是全面最小二乘也有它的不足,即数据处理比较复杂,随着计算机科学的发展,数据处理复杂的问题可以借助于程序设计让计算机来处理。参考文献1费业泰.误差理论与数据处理(第四版).北京:机械工业出版社,2000.2贾小勇,徐传胜,白欣,最小二乘法的创立及其思想方法.西北大学学报,2006,36(3):507-511.3陈希孺.最小二乘法的历史回顾与现状.中国科学院研究生院学报,1998,15(1):4-11.4万保峰,程新文,欧龙.T1.S与1.S数据处理方法对比研究.城市勘测,2007:74-76.