统计相关性分析方法研究进展.docx
统计相关性分析方法研究进展一、本文概述随着大数据时代的到来,统计相关性分析在多个领域,如生物学、医学、社会学以及商业决策中,发挥着越来越重要的作用。统计相关性分析旨在揭示数据之间的潜在关系,帮助我们更好地理解数据的内在规律,并为预测和决策提供支持。对统计相关性分析方法的研究进展进行深入探讨,具有重要的理论和实践意义。本文首先回顾了统计相关性分析的基本概念和研究背景,包括相关性的定义、分类以及常见的相关性分析方法。在此基础上,文章系统地梳理了近年来统计相关性分析方法的研究进展,包括新的理论框架、改进的分析技术以及应用领域的拓展等。同时,文章也探讨了当前研究中存在的问题和挑战,如数据的复杂性、相关性的解释性等问题。通过对统计相关性分析方法研究进展的全面分析,本文旨在为相关领域的学者和实践者提供一个清晰的研究脉络和前沿视角,推动统计相关性分析方法的进一步发展,并为其在实际应用中的优化和创新提供理论支持。二、统计相关性分析方法的概述统计相关性分析是研究变量之间相互关系的一种重要方法,广泛应用于各个学科领域。它的发展历程可以追溯到19世纪,当时科学家们开始研究变量之间的相互关系。随着统计学的发展,越来越多的统计方法被用于分析变量之间的相关性。皮尔逊相关系数(PearsonCorrelationCoefficient):用于衡量两个连续变量之间的线性相关程度。它的取值范围是1到L其中1表示完全负相关,0表示无相关性,1表示完全正相关。斯皮尔曼秩相关系数(SpearmansRankCorrelationCoefficient):用于衡量两个变量之间的单调相关关系,即不要求变量之间是线性关系。它的取值范围也是1到1。肯德尔秩相关系数(KendalISRankCorrelationCoefficient):用于衡量两个变量之间的相关性,类似于斯皮尔曼秩相关系数,但对数据的分布没有要求。网络相关性分析(NetworkcorrelationAnalysis):用于分析复杂网络中节点之间的相关性,可以揭示网络中的结构特征和功能模块。多变量相关分析(MultivariateCorrelationAnalysis):用于分析多个变量之间的相关性,可以同时考虑多个自变量对因变量的影响。统计相关性分析方法在各个领域都有广泛的应用,如医学、经济学、环境科学等。它的优点在于能够定量地衡量变量之间的相互关系,帮助研究者深入了解事物的内在联系。统计相关性分析也存在一些局限性,如无法准确解释变量之间的因果关系,可能存在伪相关问题,对数据的要求较高,不适用于高度复杂的数据结构等。未来研究可以针对这些局限性进行改进和优化,以拓展统计相关性分析的应用范围和提高分析效能。例如,研究者可以结合其他统计学方法或引入新的理论模型来探究因果关系,改进数据处理方法以适应复杂的数据结构等。三、传统统计相关性分析方法皮尔逊相关系数(PearsonCorrelationCoefficient):取值范围为1到1,其中1表示完全负相关,0表示无相关性,1表示完全正相关。斯皮尔曼秩相关系数(SpearmansRankCorrelationCoefficient):用于衡量两个变量之间的单调相关性,不要求变量呈正态分布。通过将原始数据转换为秩次数据,然后计算秩次之间的相关性。与皮尔逊相关系数类似,取值范围为1到1,但适用于非正态分布的数据。肯德尔秩相关系数(KendaIlSRankCorrelationCoefficient):用于衡量两个变量之间的单调相关性,与斯皮尔曼秩相关系数类似。这些传统统计相关性分析方法在各个学科领域中都有广泛的应用,如医学、经济学和环境科学等。它们能够帮助研究者深入了解变量之间的相互关系,并提供定量的衡量标准。这些方法也存在一些局限性,如无法准确解释因果关系、对数据质量要求较高以及不适用于高度复杂的数据结构等。在实际应用中,需要根据具体问题和数据特点选择合适的相关性分析方法。四、现代统计相关性分析方法随着科学技术的进步和数据规模的不断扩大,现代统计相关性分析方法也在不断发展和完善。这些新方法在处理大规模、高维度、非线性、动态和复杂数据时表现出了强大的优势。机器学习算法:近年来,机器学习算法在统计相关性分析中的应用越来越广泛。例如,支持向量机(SVM)、随机森林(RandomFOreSt)和神经网络(NeUralNetworks)等算法能够通过学习数据的内在规律,有效地发现变量之间的非线性关系。深度学习模型如卷积神经网络(CNN)和循环神经网络(RNN)在处理图像、语音和序列数据等复杂数据类型时,也表现出了出色的性能。复杂网络分析:复杂网络分析是一种用于研究网络结构和节点间关系的统计方法。通过将数据视为网络,可以揭示变量之间的直接和间接关系,以及这些关系在网络中的传播路径。例如,PageRank算法和社区发现算法等复杂网络分析方法,在社交网络、生物网络和互联网等领域得到了广泛应用。因果推断方法:传统的相关性分析往往只能揭示变量之间的统计关联,而无法确定因果关系。近年来,因果推断方法的发展为解决这个问题提供了新的途径。例如,基于图模型的因果推断方法,如潜在结果模型(PotentialOutcomeModel)和因果图(CausalDiagram),能够通过建立变量之间的因果关系,为决策制定和政策评估提供更有力的支持。时间序列分析:对于动态数据和时序数据,时间序列分析是一种重要的统计相关性分析方法。通过构建时间序列模型,可以研究变量随时间变化的趋势和周期性,以及变量之间的动态关联。例如,自回归模型(AR)、移动平均模型(MA)和自回归移动平均模型(ARMA)等时间序列分析方法,在金融、气象和医学等领域得到了广泛应用。现代统计相关性分析方法在不断发展和创新,为处理复杂数据和揭示变量间关系提供了更多的选择和可能性。未来随着技术的不断进步和应用领域的不断拓展,这些方法将在更多领域发挥重要作用。五、统计相关性分析方法的应用领域金融领域:在金融领域,统计相关性分析被广泛应用于风险评估、投资组合优化、股票价格预测等方面。通过对大量金融数据的分析,可以帮助投资者理解不同资产之间的关联性,从而制定出更为合理的投资策略。医学研究:在医学研究中,统计相关性分析可以帮助研究者发现不同生理指标之间的关联性,进而揭示疾病的发病机理和治疗方法。例如,通过分析大量病例数据,可以找出某些生理指标与疾病发生之间的相关性,为疾病的早期预防和诊断提供有力支持。社会科学:在社会科学领域,统计相关性分析被用于研究各种社会现象之间的关联性,如人口增长、经济发展、教育水平等。通过对这些数据的分析,可以帮助政策制定者更好地理解社会现象背后的规律,从而制定出更为合理的政策。工程技术:在工程技术领域,统计相关性分析被用于研究各种工程参数之间的关联性,如材料性能、设备可靠性、工艺流程等。通过对这些数据的分析,可以帮助工程师更好地理解工程系统的工作原理,从而优化设计方案和提高工程效率。机器学习:在机器学习领域,统计相关性分析被用于特征选择和降维等方面。通过对特征之间的相关性进行分析,可以选择出对模型性能影响最大的特征,从而提高模型的预测精度和泛化能力。统计相关性分析方法在众多领域中都有着广泛的应用前景。随着科技的不断发展和数据量的不断增加,统计相关性分析方法的应用领域还将不断扩大和深化。六、统计相关性分析方法的挑战与未来发展维度灾难:随着数据维度的增加,传统的相关性分析方法往往难以有效处理,容易出现维度灾难的问题。如何在高维数据中准确识别出真正相关的变量,是统计相关性分析面临的重要挑战。非线性关系识别:现实世界中很多关系是非线性的,而传统的统计相关性分析方法主要基于线性假设。如何有效识别和处理非线性关系,是统计相关性分析需要解决的问题。因果关系的探索:虽然统计相关性分析可以揭示变量之间的关联程度,但它并不能直接揭示因果关系。如何结合其他方法,如因果推理、机器学习等,来探索变量之间的因果关系,是未来的重要研究方向。动态变化的处理:在很多实际应用中,数据往往具有动态变化的特性。如何捕捉这种动态变化,并对其进行有效的统计相关性分析,是另一个重要的挑战。融合机器学习技术:随着机器学习技术的发展,统计相关性分析可以借鉴其中的一些方法,如深度学习、神经网络等,来处理非线性关系和高维数据。这将有助于提高统计相关性分析的准确性和效率。加强因果关系的探索:未来的统计相关性分析将更加注重因果关系的探索。通过结合因果推理、贝叶斯网络等方法,可以更好地揭示变量之间的因果关系,为决策提供更有力的支持。发展动态统计相关性分析:针对动态变化的数据,未来的统计相关性分析将发展出更加灵活和动态的分析方法。这些方法可以更好地捕捉数据的动态变化,提高分析的时效性和准确性。跨学科融合:统计相关性分析的发展将更加注重与其他学科的融合,如生物学、医学、社会学等。通过跨学科的合作与交流,可以推动统计相关性分析在各个领域的应用和发展。面对挑战与机遇并存的未来,统计相关性分析需要不断创新和发展,以适应日益复杂和多元的数据分析需求。通过融合新技术、加强因果关系探索、发展动态分析等方法,统计相关性分析将在未来发挥更加重要的作用。七、结论本文对统计相关性分析方法的研究进展进行了综述,主要涵盖了其发展历程、研究方法以及优缺点等方面。统计相关性分析作为研究变量之间相互关系的重要方法,在各个学科领域都得到了广泛应用。从19世纪开始,科学家们就开始探索变量之间的关联,而随着统计学的发展,越来越多的统计方法被应用于相关性分析,如皮尔逊相关系数、斯皮尔曼秩相关系数和肯德尔秩相关系数等。近年来,随着大数据的兴起,统计相关性分析方法的应用领域进一步扩大,同时也催生了一些新的分析方法,如网络相关性分析和多变量相关分析等。本文主要通过文献回顾、案例分析和理论分析三个方面对统计相关性分析方法进行了研究综述。统计相关性分析方法在实践中具有广泛的应用,例如在医学领域用于探究疾病发生发展的内在机制,在经济学领域用于研究经济增长与通货膨胀的关系,以及在环境科学领域用于探讨气候变化与生态系统的相互影响等。统计相关性分析的优点主要体现在其能够定量衡量变量之间的相互关系,帮助研究者深入了解事物的内在规律具有广泛的应用范围,适用于不同领域的研究以及分析结果具有一定的预测价值,可为决策提供科学依据。统计相关性分析也存在一些局限性。它无法准确解释变量之间的因果关系,可能存在伪相关问题。相关分析对数据质量要求较高,需要保证数据的准确性和完整性。相关分析不适用于高度复杂的数据结构,如多变量、多层次的数据关系。未来的研究方向可以针对这些局限性进行改进和优化,以拓展统计相关性分析的应用范围和提高分析效能。例如,研究者可以结合其他统计学方法或引入新的理论模型来探究因果关系,也可以致力于改进数据质量和处理复杂数据结构的方法。这些努力将进一步推动统计相关性分析方法的发展和应用。参考资料:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等。数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在工业设计中具有极其重要的地位。在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰图基(JohnTUkey)命名。定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。离线数据分析用于较复杂和耗时的数据分析和处理,一般通常构建在云计算平台之上,如开源的HDFS文件系统和MapReduce运算框架。HadOoP机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时间为几分钟、几小时、几天甚至更长。在线数据分析也称为联机分析处理,用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQL系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。将数据按一定规律用列表方式表达出来,是记录和处理最常用的方法。表格的设计要求对应关系清楚,简单明了,有利于发现相关量之间的相关关系;此外还要求在标题栏中注明各个量的名称、符号、数量级和单位等:根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。作图法可以最醒目地表达各个物理量间的变化关系。从图线上可以简便求出实验需要的某些结果,还可以把某些复杂的函数关系,通过一定的变换用图形表示出来。图表和图形的生成方式主要有两种:手动制表和用程序自动生成,其中用程序制表是通过相应的软件,例如SPSS、EXCe1、MATLAB等。将调查的数据输入程序中,通过对这些软件进行操作,得出最后结果,结果可以用图表或者图形的方式表现出来。图形和图表可以直接反映出调研结果,这样大大节省了设计师的时间,帮助设计者们更好地分析和预测市场所需要的产品,为进一步的设计做铺垫。同时这些分析形式也运用在产品销售统计中,这样可以直观地给出最近的产品销售情况,并可以及时地分析和预测未来的市场销售情况等。所以数据分析法在工业设计中运用非常广泛,而且是极为重要的。使用Excel自带的数据分析功能可以完成很多专业软件才有的数据统计、分析:其中包括:直方图、相关系数、协方差、各种概率分布、抽样与动态模拟、总体均值判断,均值推断、线性、非线性回归、多元回归分析、移动平均等内容。在商业智能领域COgnOs、StyleIntelligenceMicrostrategy>Brio>BO和OraCle以及国内产品如YonghongZ-SuiteBI套件等。数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步骤:探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:将识别的需求转化为具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据;记录表应便于使用;采取有效措施,防止数据丢失和虚假数据对系统的干扰。分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,通常用方法有:老七种工具,即排列图、因果图、分层法、调查表、散布图、直方图、控制图;新七种工具,即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图。数据分析是质量管理体系的基础。组织的管理者应在适当时,通过对以下问题的分析,评估其有效性:提供决策的信息是否充分、可信,是否存在因信息不足、失准、滞后而导致决策失误的问题;信息对持续改进质量管理体系、过程、产品所发挥的作用是否与期望值一致,是否在产品实现过程中有效运用数据分析;收集数据的目的是否明确,收集的数据是否真实和充分,信息渠道是否畅通;“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现年轻的父亲身上。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法一一Aprior算法。沃尔玛从上个世纪90年代尝试将Aprior算法引入到PoS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。SUnCOrP-MetWay是澳大利亚一家提供普通保险、银行业、寿险和理财服务的多元化金融服务集团,旗下拥有5个业务部门,管理着14类商品,由公司及共享服务部门提供支持,其在澳大利亚和新西兰的运营业务与900多万名客户有合作关系。该公司过去十年间的合并与收购,使客户群增长了200%,这极大增加了客户群数据管理的复杂性,如果解决不好,必将对公司利润产生负面影响.为此,IBM公司为其提供了一套解决方案,组件包括:IBMCognos8BI、IBMInitiateMasterDataService与IBMUnicao采用该方案后,Suncorp-Metway公司至少在以下三项业务方面取得显著成效:避免向同一户家庭重复邮寄相同信函并且消除冗余系统,从而同时降低直接邮寄与运营成本。由此可见,Suncorp-Metway公司通过该方案将此前多个孤立来源的数据集成起来,实现智慧营销,对控制成本,增加利润起到非常积极的作用。统计相关性分析是研究变量之间相互关系的一种重要方法,广泛应用于各个学科领域。本文将综述统计相关性分析方法的研究进展,包括其发展历程、研究方法以及优缺点等,同时指出未来研究方向和意义。早在19世纪,科学家们就开始研究变量之间的相互关系。自20世纪以来,随着统计学的发展,越来越多的统计方法被用于分析变量之间的相关性。例如,皮尔逊相关系数、斯皮尔曼秩相关系数和肯德尔秩相关系数等,这些方法均用于衡量两个变量之间的线性或非线性关系。近年来,随着大数据的迅猛发展,统计相关性分析方法在各个领域的应用越来越广泛,同时也出现了一些新的分析方法,如网络相关性分析、多变量相关分析等。本文主要从文献回顾、案例分析、理论分析三个方面对统计相关性分析方法的研究进行综述。通过对已有文献的梳理和评价,深入了解统计相关性分析方法的研究现状和发展趋势。文献回顾在整个研究过程中具有至关重要的地位,能够帮助研究者全面地了解该领域的研究背景和前沿动态。通过对实际数据的分析,探讨统计相关性分析方法在实践中的应用。案例分析能够生动地展示统计方法的使用效果和局限性,从而为进一步优化分析方法提供有力支持。从理论层面深入探讨统计相关性分析的原理、性质和内在机制。理论分析能够帮助研究者更好地理解统计方法的本质,为改进和创新分析方法提供理论指导。统计相关性分析方法在各个领域都有广泛的应用。例如,在医学领域中,研究者利用相关分析探究疾病发生发展的内在;在经济学领域,相关分析被用于研究经济增长与通货膨胀之间的关系;在环境科学领域,相关分析有助于探讨气候变化与生态系统的相互影响。统计相关性分析的优点主要表现在以下几个方面:它能够定量地衡量变量之间的相互关系,帮助研究者深入了解事物的内在;相关分析具有广泛的应用范围,可以应用于不同领域的研究中;相关分析的结果具有一定的预测价值,可以为决策提供科学依据。统计相关性分析也存在一定的局限性。它无法准确地解释变量之间的因果关系,可能存在伪相关问题;相关分析对数据的要求较高,需要保证数据的准确性和完整性;相关分析不适用于高度复杂的数据结构,如多变量、多层次的数据关系。未来研究可以针对统计相关性分析的局限性进行改进和优化,以拓展其应用范围和提高分析效能。例如,研究者在探究因果关系时,可以结合其他统计学方法或者引入新的理论模型进行深入分析。研究者还可以致力于改进数据收集和处理技术,以提高数据的准确性和完整性。统计相关性分析作为探究变量之间相互关系的重要工具,在未来的研究中具有重要的意义。通过不断地改进和完善相关分析方法,有助于科研工作者更好地理解事物的本质,从而为解决实际问题提供科学依据。元分析(meta-analysis)统计方法是对众多现有实证文献的再次统计,通过对相关文献中的统计指标利用相应的统计公式,进行再一次的统计分析,从而可以根据获得的统计显著性等来分析两个变量间真实的相关关系。元分析程序输入参数包括:各个观察到的相关系数(已有研究文献中变量间的相关计分析,从而可以根据获得的统计显著性等来分析两个变量间真实的相关关系。元分析要求每个观察到的相关系数经过研究样本的大小的权重处理,从而产生经过权重处理的总体相关性的平均估计值。这个观察值的误差包括总体样本的真实误差,样本误差,以及测量误差。因此为了获得精确的总体相关性及其误差,需要对样本误差和测量误差等进行修正,找出“调节变量”分组研究。元分析对使用的数据进行了一定的限制要求。如“一个变量在不同的研究中有多种衡量指标”出现时,需首先得将这种“异质性”进行处理(HUnterandSchmidt,1990)以保证数据来源及统计方式的一致性。第一次使用“元分析”这个概念的人是美国学者格拉斯,他在1976年美国教育研究联合会(AmeriCanEducationResearchASSOCiation)的发言致辞中首次提出元分析概念。格拉斯认为,元分析是一种对分析的分析,具有以下主要特点:(1)元分析是一种定量分析方法,它不是对原始数据的统计,而是对统计结果的再统计;元分析可以成为跨研究评判结果的一件有力工具。即使许多研究者已经乐意接受元分析的概念了,可还有一些人基于若干理由而质疑它的有用性。在一家期刊里可见的研究之质量取决于期刊的编辑政策。有些期刊有严格的发表标准,而另一些的发表标准就不太严格。这就意味着发表的研究之质量在不同的期刊间会有很大差别。元分析面临的一个问题是如何处理参差不齐的研究质量。例如,在一家非同侪评审的期刊上发表的文章应该与在一家需同侪评审的期刊上发表的文章一视同仁吗?遗憾的是对这个问题没有简单的答案。应该沿什么维度来对研究加权呢?这毫无一致意见。需一非同侪评审的维度虽然是可以的,但是你采用这个维度时也要当心,因为一家期刊是不是同侪评审的,这并不是发表的研究之质量的可靠指标。在一个新的领域里用新方法做的研究有时会被同侪评审的期刊拒绝,尽管这家期刊在方法学上是健全的,也是高质量的。类似地,在同侪评审的期刊发表的作品虽然有助于你确信该研究的质量是高的,但不保证高质量。对元分析的常见批评是难以理解怎么可能对材料、量器以及方法都广泛不同的诸研究做比较。这个问题通称为“苹果与桔子之争”(Glass,1978)o对元分析的这种批评虽常见,却无效。比较不同的研究结果与在一个普通实验里对异质被试作平均化是毫无不同的。如果你愿意接受对被试作平均化,那也就能接受对异质研究作平均化。关键问题不是应不应该在异质研究之间做平均,而毋宁说是不同的研究方法会不会带来不同的效应规模。当某一被试变量成了研究中的一个问题时,你经常会“胶着”在这个被试变量上以确定它是如何与出现的差异相关联的。同样的,如果方法学的差异显得与研究结果有关联,那么在一项元分析里,研究也要停下来考察方法学。元分析的工作是一项艰巨的工作。对同一问题做实验,可以使用很不同的方法与统计技术。还有,某些研究也许没有提供必要的信息可做元分析。传统的述评产生的结果是不是与元分析的结果有质的不同?这的确是个问题。有学者直接比较了这两种方法。他们把研究生和教授随机分配于做元分析或做传统述评,材料是7篇文章,讲述被试性别对作业坚持性的影响。其中两篇研究认为女性比男性更有坚持性,而另5篇要么没有统计数据,要么显示没有显著效应。这一研究的结果显示了使用元分析的参与者比使用传统方法的参与者更有可能得出性别对坚持性有影响的结论。比之于做元分析的参与者,做传统述评的参与者认为性别对坚持性的影响小。总起来看,使用元分析的参与者有68%愿意断言性别对坚持性有影响,而只有27%使用传统方法的参与者有此倾向。用统计学的话来说,做元分析者比传统述评者更愿意拒绝性别无影响的虚无假设。因此使用元分析来评判研究会导致II型决策错误的降低。值得注意的是,使用元分析本身要求的统计学进路与对传统实验数据做统计分析的研究策略是一样的。当我们得到一个实验的结果时,我们不会只打量(“盯着”)数据,看看是否存在什么模式或关系。相反,在大多数情况下,我们用统计分析来评判关系是否存在。同样的,与其“盯着”诸研究而猜测可能的关系,还不如把一项统计分析应用于不同研究的结果,以见是否存在有意义的关系,这会更好。元分析要具有可复制性,不仅应尽可能多地检验搜集来的研究样本,观察它们是否可以凸显出某种单项研究显现不出的潜藏规律,还应该清楚地描述自己是如何发现这些研究及如何对它们作分析的,以便他人进行评价。元分析必须遵循详尽、严格的研究步骤。确定研究目的也就是组织研究框架。在收集研究之前,首先必须确定研究中想要探索的文献领域及将要包括的题目范围。元分析涵盖的题目有时很宽泛,但其核心必须界定清楚,而且应该建立一套挑选研究样本的“包含”与“排除”标准,这样可以帮助一起合作的研究者在面对同一群文献时能够运用同样的标准去查找或分析研究。确定研究目的时,还需要充分理解自己所要分析的概念及使用的方法,就像确定实验研究中的自变量和因变量一样,确定所要研究的效果量及结果。通过包括计算机网络在内的各种手段进行彻底的文献搜索,也就是研究样本的搜索,这对元分析的有效性非常重要,是综合研究得出结论的基础。对文献样本的收集可根据ROSenthal(1984)提出的大概分类标准:未发表的研究:包括某些技术报告、学术报告、大会论文及将要发表的论文。选择符合研究框架的研究样本是元分析的关键。要考虑多种问题,如它的研究设计,文章发表的时间,文章使用何种语言表述,研究中的样本大小及信息是否完整等等。一般而言,尽可能选择最新的研究。对于未被选中的资料在分析中也要说明,这样就可以清楚明了地表明这些研究曾经发表过,并非经过一段时间将它们遗漏,只是没有作为设计的一部分包括进研究内。同时如果在研究中仅选择了以母语或英语表述的文章,就要说明这样做的理由。如果看到某一类研究在相似的题目上有多重报告,那么就选择其中一个信息较为完整的研究,使同一类型研究中的信息对元分析只贡献一次。尽量排除小样本的研究。如果选择了纵向跟踪研究,则要尽早决定跟踪研究的时限。在收集、选择了元分析的文献后,必须确定在元分析中要检验何种研究特征,这些特征就是元分析的变量。一般有以下四种变量:(1)识别背景特征的变量。这类变量包括入选研究样本的数量,研究样本的统计相关性是经济学中常用的一种分析工具。它能够通过数据分析出其中的关联性。统计相关性是经济学中常用的一种分析工具。相关性是指当两个因素之间存在联系的时候,一个典型的表现是:一个变量会随着另一个变量变化。相关又分成正相关和负相关两种情况。举例说明:下雪外面就会变冷,这是正相关。出太阳就不会下雨,这是负相关。相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。如果有两个变量:、Y,最终计算出的相关系数的含义可以有如下理解:(2)、当的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在OO与OO之间。(3)、当的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-00与00之间。相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。