试验设计和数据处理.ppt
《试验设计和数据处理.ppt》由会员分享,可在线阅读,更多相关《试验设计和数据处理.ppt(345页珍藏版)》请在课桌文档上搜索。
1、试验设计与数据处理,试验设计与数据处理的发展概况,20世纪20年代,英国生物统计学家及数学家费歇(RAFisher)提出了方差分析 20世纪50年代,日本统计学家田口玄一将试验设计中应用最广的正交设计表格化 数学家华罗庚教授也在国内积极倡导和普及的“优选法”我国数学家王元和方开泰于1978年首先提出了均匀设计,绪论,本课程研究内容:研究如何合理地安排实验,有效地获得实验数据,然后对实验数据进行综合的科学分析,以求尽快达到优化实验的目的。本课程开设的目的:将数学的纯理论转向实际应用,利用数学工具解决实际的化学、化工及环境专业问题,无论是对于目前大家即将面临的专业课学习、毕业论文实验,还是将来的生
2、产实践,都是很有必要的。,试验设计与数据处理所要解决的问题,在自然界中,有很多的现象是没有一个特定的规律即没有一个数学模型,是不能用我们以前所学的知识所能解决的,在我们化学研究领域更是如此。比如我们在材料研究中,要研制一种新型纳米材料,它是由许多种原材料配合,再通过一定的反应过程而成。可以用多少种材料来配料,需要什么样的反应条件,这都是未知数。而且没有一定的规律可言。那就需要我们进行大量的试验来寻找它的配方及反应条件。试验设计所要作的工作就是用最少的试验次数,尽快找出这些参数的最佳范围。数据处理是对试验数据进行分析后,去掉那些对试验影响不大的因素,来确定最佳的试验方案。,二、关于实验设计与数据
3、处理本课程中主要应用的是数理统计中的统计方法理论,主要考虑的是与实验设计有关的分析并解释实验结果的统计方法。如误差检验、方差分析、回归分析等。凡是涉及到数据的问题,只要数据中包含有相当大的实验误差,则获得满意结果的唯一稳妥的处理方法就是统计方法,除此之外别无他择。统计方法应当作为从事工业生产的科技人员所必须掌握的一门技术,用来有效地处理工业生产中的各种问题。鉴于此,本课程重点讲授应用统计学理论来解决化学、化工及环境科学与工程中的遇到的实验问题。,举例说明统计学在环境科学中的应用:“化工厂经常把有毒废弃物排放到附近的河流中,这些有毒化学品对栖息在河流中的动植物往往会产生有害的影响。众所周知的DD
4、T就对鱼类特别有害。对生活在某河流中的鱼类进行DDT含量的调查曾是一项研究工作的一部分。该河流是一条东西流向的河流,穿过一个水库,生态学家担心受污染的鱼会从河口迁移到水库危及那里的依赖鱼类生存的其他野生动物。该河干流及其支流的鱼是否被DDT污染?受污染的鱼能迁移到上游多远的地方?(提出了假设),为了回答这个问题,调查组沿着该河干流和支流进行了实地考察,在不同的地段采集鱼样共144条(由假设拟定抽样调查的方案);对采集来的鱼样进行分类、称重、测量长度,然后用有机溶剂提取鱼肉中的DDT,测定鱼肉中的DDT含量(从调查和试验中获取数据)。很明显,这项调查并不是去捕捞河里所有的鱼,144个DDT测定值
5、代表着从河中之鱼DDT含量这个总体中收集的一个样本,利用收集到的数据可以比较不同地段和不同鱼种之间鱼肉中DDT的含量,并确定鱼的长度和重量与DDT含量之间是否有定量关系等等(分析数据从样本推断总体)。此例题说明了对环境问题的分析程序是:提出假设采样获取数据分析数据从样本推断总体。,涉及到的一些基本术语:总体:欲研究对象的全体,又称母体个体:组成总体的每个单元为个体(总体单位)样本:总体的一部分,即从总体中抽取的部分 个体(子样)数据(data):对研究对象进行调查和观察的结果。(定性数据、定量数据)变量(variable):具有变异性的特征或性状的量变量:采集地点、鱼种、鱼长、鱼重、鱼中DDT
6、的浓度定量数据:鱼长、鱼重、DDT浓度产生的数据定性数据:采集地点、鱼种变量产生的数据,试验设计与数据处理的意义,试验设计的目的:合理地安排试验,力求用较少的试验次数获得较好结果 例:某试验研究了3个影响因素:A:A1,A2,A3 B:B1,B2,B3 C:C1,C2,C3 全面试验:27次 正交试验:9次,数据处理的目的,通过误差分析,评判试验数据的可靠性;确定影响试验结果的因素主次,抓住主要矛盾,提高试验效率;确定试验因素与试验结果之间存在的近似函数关系,并能对试验结果进行预测和优化;试验因素对试验结果的影响规律,为控制试验提供思路;确定最优试验方案或配方。,实验可归纳为以下几种类型:(1
7、)物化性质研究:一般不常用统计方法;(2)产品、原料等的常规分析:系统误差大于随机误差,对误差需进行一定的设计,若想获得可靠的估计值,最好的方法就是采用统计方法;(3)材料特性试验:随机误差较大,为了获得可靠的估计值,必须从相当数量的观测值中取均值,凡是涉及此类实验的研究工作,均需采用统计法的合理设计;(4)过程研究:主要涉及的是各种实验条件的优化实验,需要对各种条件变化对过程的影响进行系统性研究,需要用到统计法的实验设计与数据处理知识。,本课程的讲授内容安排(1)数据处理基础:误差理论、数据的表示方法;(2)数据处理部分:有限数据的统计处理、方差分析、回归分析;(3)实验设计部分:优选法实验
8、设计、正交实验设计。,4、教材试验设计与数据处理(第二版),李云雁、胡传荣编著,化工出版社,2008,第1章 试验数据的误差分析,第1章 试验数据的误差分析,1、数据测量,1.1 数据测量的基本概念(1)物理量物理量是反映任何物理现象的状态及其过程特征的数值量。任何物理量一般都有如下特点:物理量都是有相应的单位,数值为1的物理量称为单位物理量;同一物理量可以用不同的物理单位来描述,如能量可以用焦耳、千瓦小时等不同单位来表述。(2)测量以确定量值为目的的一组操作。操作的结果可得到量值,即得到数据,这组操作称为测量。例如:用米尺测得桌子的长度为1.2米。(3)测量结果测量结果就是根据已有的信息和条
9、件对被测量物理量的最佳估计,既是物理量真值的最佳估计。在测量结果的完整表述中,应包括测量误差,必要时还应给出自由度及置信概率。测量结果具有重复性和复现性。,重复性是指在相同测量条件下,对同一被物理量进行连续多次测量所得结果之间的一致性。相同测量条件既称之为“重复性条件”主要包括:相同的测量程序、相同的测量仪器、相同的观测者、相同的地点、在短期内的重复测量、相同的测量环境。若每次的测量条件相同,则在一定的误差范围内,每一次测量结果的可靠性是相同的,这些测量值服从同一分布。复现性是指在改变测量条件下,对被测量进行多次测量时,每一次测量结果之间的一致性。即在一定的误差范围内,每一次测量结果的可靠性是
10、相同的,这些测量值服从同一分布。(4)测量方法根据给定的测量原理,在测量中所用的并按类别描述的一组操作逻辑次序和划分方法,常见的有替代法、微差法、零位法、异号法等。数据测量就是用单位物理量去描述或表示某一未知的同类物理量的大小。,1.2 数据测量的分类 一、按计量的性质分为:检定、检验和校准检定:由法定计量部门,为确定和证实计量器具是否完全满足检定规程的要求而进行的全部工作。检定是由国家法定计量部门所进行的测量,在我国主要是由各级计量院所以及授权的实验室来完成,是我国开展量值传递最常用的方法。检定必须严格按照检定规程运作,对所检仪器给出符合性判断,既给出合格还是不合格的结论,而该结论具有法律效
11、应。检定方法一般分为整体检定法和分项检定法两种。检测:对给定的产品、材料、设备、生物体、物理现象、工艺过程或服务,按照一定的程序确定一种或多种特性或性能的技术操作。检测通常是依据相关标准对产品的质量进行检验,检验结果一般记录在称为检测报告或检测证书的文件中。校准:在规定条件下,为确定测量仪器或测量系统所指示的量值,或实物量具或参考物质所代表的量值,与对应的由标准所呈现的量值之间关系的一组操作。二、按测量目的的分类分为:定值测量和参数检验定值测量:按一种不确定度确定参数实际值的测量。其目的是确定被测量的量值是多少,通常预先限定允许的测量误差。参数检验:以技术标准、规范或检定规程为依据,判断参数是
12、否合格的测量。其目的是判断被检参数是否合格,通常预先限定参数允许变化的范围(如公差等)。,三、按测量值获得的方法分为:直接测量、间接测量和组合测量(一)直接测量法 用一个预先标定好的测量仪器去直接测量未知物理量的大小。如用万用表去测量电压、电阻、电流等;用圈尺去测量长度;用磅称测量重量等。直接测量可表示为 y=x 式中 y 表示被测量的未知量,x 为直接测得的量。在由若干基本物理单位导出的物理量中,有相当多的量是无法用仪表直接测出的,如粉磨效率、选粉机的效率等。此时只能用间接测量法进行测量。,(二)间接测量法把直接测量代入某一特定的函数关系式中,通过计算求出未知物理量的大小,这种方法间接测量法
13、。例如,用毕托管测量气流速度,直接测量压差值 h。计算的特定函数关系式为,(12)式中:h U 型差压计的读数;毕托管速度系数;g 重力加速度;流体和差压计中流体密度。,间接测量通用的函数关系式为式中:y 间接测量量,直接测量量。,(三)组合测量法,要测量出x和y,分别对x+y和x-y进行直接测量,得到测量值分别为l1和l2,可得测量方程组:,解方程组得:组合测量可以用如下的通用联立方程组表示,式中:f1、f2、fn 表示组合测量中的函数关系 x1、x2、直接测量的物理量 y1、y2、未知的物理量,误差分析(error analysis):对原始数据的可靠性进行客观的评定 误差(error):
14、试验中获得的试验值与它的客观真实值在数值上的不一致试验结果都具有误差,误差自始至终存在于一切科学实验过程中客观真实值真值,1.3 误差的概念,1.3.1 真值与平均值,1.3.1.1 真值(true value)真值:在某一时刻和某一状态下,某量的客观值或实际值 真值一般是未知的相对的意义上来说,真值又是已知的平面三角形三内角之和恒为180国家标准样品的标称值国际上公认的计量值 高精度仪器所测之值多次试验值的平均值,1.3.1.2 平均值(mean),(1)算术平均值(arithmetic mean),等精度试验值,适合:,试验值服从正态分布,(2)加权平均值(weighted mean),适
15、合不同试验值的精度或可靠性不一致时,wi权重,加权和,(3)对数平均值(logarithmic mean),说明:若数据的分布具有对数特性,则宜使用对数平均值对数平均值算术平均值如果1/2x1/x22 时,可用算术平均值代替,设两个数:x10,x2 0,则,(4)几何平均值(geometric mean),当一组试验值取对数后所得数据的分布曲线更加对称时,宜采用几何平均值。几何平均值算术平均值,设有n个正试验值:x1,x2,xn,则,(5)调和平均值(harmonic mean),常用在涉及到与一些量的倒数有关的场合调和平均值几何平均值算术平均值,设有n个正试验值:x1,x2,xn,则:,1.
16、3.2 误差的基本概念,1.3.2.1 绝对误差(absolute error)(1)定义 绝对误差试验值真值 或,(2)说明,真值未知,绝对误差也未知,可以估计出绝对误差的范围:,绝对误差限或绝对误差上界,或,绝对误差估算方法:最小刻度的一半为绝对误差;最小刻度为最大绝对误差;根据仪表精度等级计算:绝对误差=量程精度等级%,1.3.2.2 相对误差(relative error),(1)定义:,或,或,(2)说明:,真值未知,常将x与试验值或平均值之比作为相对误差:,或,可以估计出相对误差的大小范围:,相对误差限或相对误差上界,相对误差常常表示为百分数(%)或千分数(),1.3.2.3 算术
17、平均误差(average discrepancy),定义式:,可以反映一组试验数据的误差大小,1.3.2.4 标准误差(standard error),当试验次数n无穷大时,总体标准差:,试验次数为有限次时,样本标准差:,表示试验值的精密度,标准差,试验数据精密度,(1)定义:以不可预知的规律变化着的误差,绝对误差时正时负,时大时小(2)产生的原因:偶然因素(3)特点:具有统计规律小误差比大误差出现机会多正、负误差出现的次数近似相等当试验次数足够多时,误差的平均值趋向于零 可以通过增加试验次数减小随机误差随机误差不可完全避免的,1.4.1 随机误差(random error),1.4 试验数据
18、误差的来源及分类,1.4.2 系统误差(systematic error),(1)定义:一定试验条件下,由某个或某些因素按照某一确定的规律起作用而形成的误差(2)产生的原因:多方面(3)特点:系统误差大小及其符号在同一试验中是恒定的 它不能通过多次试验被发现,也不能通过取多次试验值的平均值而减小只要对系统误差产生的原因有了充分的认识,才能对它进行校正,或设法消除。,1.4.3 过失误差(mistake),(1)定义:一种显然与事实不符的误差(2)产生的原因:实验人员粗心大意造成(3)特点:可以完全避免 没有一定的规律,1.4.1 精密度(precision),(1)含义:反映了随机误差大小的程
19、度在一定的试验条件下,多次试验值的彼此符合程度 例:甲:11.45,11.46,11.45,11.44 乙:11.39,11.45,11.46,11.50(2)说明:可以通过增加试验次数而达到提高数据精密度的目的 试验数据的精密度是建立在数据用途基础之上的 试验过程足够精密,则只需少量几次试验就能满足要求,1.5 试验数据的精准度,(3)精密度判断,极差(range),标准差(standard error),R,精密度,标准差,精密度,方差(variance),标准差的平方:样本方差(s2)总体方差(2)方差,精密度,1.4.2 正确度(correctness),(1)含义:反映系统误差的大小
20、(2)正确度与精密度的关系:,精密度不好,但当试验次数相当多时,有时也会得到好的正确度,精密度高并不意味着正确度也高,(a),(b),(c),1.4.3 准确度(accuracy),(1)含义:反映了系统误差和随机误差的综合 表示了试验结果与真值的一致程度(2)三者关系无系统误差的试验,精密度:ABC正确度:ABC准确度:ABC,有系统误差的试验,精密度:A B C 准确度:A B C,A B,C,1.5.1 随机误差的检验,1.5 试验数据误差的统计假设检验,(1)目的:,对试验数据的随机误差或精密度进行检验。,(2)检验步骤:,计算统计量,查临界值,一般取0.01或0.05,表示有显著差异
21、的概率,双侧(尾)检验(two-sided/tailed test):,检验,若,则判断两方差无显著差异,否则有显著差异,单侧(尾)检验(one-sided/tailed test):左侧(尾)检验:,则判断该方差与原总体方差无显著减小,否则有显著减小,右侧(尾)检验,则判断该方差与原总体方差无显著增大,否则有显著增大,若,若,1.5.1.2 F检验(F-test),(1)目的:对两组具有正态分布的试验数据之间的精密度进行比较(2)检验步骤计算统计量,设有两组试验数据:,都服从正态分布,样本方差分别为,和,和,,则,第一自由度为,第二自由度为,服从F分布,,查临界值给定的显著水平,查F分布表,
22、临界值,双侧(尾)检验(two-sided/tailed test):,检验,若,则判断两方差无显著差异,否则有显著差异,单侧(尾)检验(one-sided/tailed test):左侧(尾)检验:,则判断该判断方差1比方差2无显著减小,否则有显著减小,右侧(尾)检验,则判断该方差1比方差2无显著增大,否则有显著增大,若,若,1.5.2 系统误差的检验,1.5.2.1 t检验法(1)平均值与给定值比较 目的:检验服从正态分布数据的算术平均值是否与给定值有显著差异检验步骤:计算统计量:,给定值(可以是真值、期望值或标准值),双侧检验:,若,则可判断该平均值与给定值无显著差异,否则就有显著差异,
23、单侧检验,左侧检验,若,且,则判断该平均值与给定值无显著减小,否则有显著减小,右侧检验,若,且,则判断该平均值与给定值无显著增大,否则有显著增大,(2)两个平均值的比较 目的:判断两组服从正态分布数据的算术平均值有无显著差异计算统计量:两组数据的方差无显著差异时,s合并标准差:,两组数据的精密度或方差有显著差异时,服从t分布,其自由度为:,t检验,双侧检验:,若,则可判断两平均值无显著差异,否则就有显著差异,单侧检验,左侧检验,若,且,则判断该平均值1较平均值2无显著减小,否则有显著减小,右侧检验,若,且,则判断该平均值1较平均值2无显著增大,否则有显著增大,(3)成对数据的比较 目的:试验数
24、据是成对出现,判断两种方法、两种仪器或两分析人员的测定结果之间是否存在系统误差计算统计量:,成对测定值之差的算术平均值:,零或其他指定值,n对试验值之差值的样本标准差:,t检验 若,否则两组数据之间存在显著的系统误差,,则成对数据之间不存在显著的系统误差,,1.5.2.2 秩和检验法(rank sum test),(1)目的:两组数据或两种试验方法之间是否存在系统误差、两种方法是否等效等,不要求数据具有正态分布(2)内容:设有两组试验数据,相互独立,n1,n2分别是两组数据的个数,假定 n1n2;将这个试验数据混在一起,按从小到大的次序排列 每个试验值在序列中的次序叫作该值的秩(rank)将属
25、于第1组数据的秩相加,其和记为R1 R1第1组数据的秩和(rank sum)如果两组数据之间无显著差异,则R1就不应该太大或太小,查秩和临界值表:根据显著性水平和n1,n2,可查得R1的上下限T2和T1 检验:如果R1T2 或R1 T1,则认为两组数据有显著差异,另一组数据有系统误差如果T1R1T2,则两组数据无显著差异,另一组数据也无系统误差,(3)例:,设甲、乙两组测定值为:甲:8.6,10.0,9.9,8.8,9.1,9.1 乙:8.7,8.4,9.2,8.9,7.4,8.0,7.3,8.1,6.8已知甲组数据无系统误差,试用秩和检验法检验乙组测定值是否有系统误差。(0.05),解:(1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 试验 设计 数据处理
链接地址:https://www.desk33.com/p-1274216.html