心理测量学考点.docx
第一章一、心理测验的历史(一)心理测验在我国的悠久历史中国古代蕴涵着丰富的心理测量思想,在心理健康、个性心理、能力评估方面都带给研究者很多有益的启示。(二)科学心理测验的产生与发展1.心理测验的产生是社会的需要(1)劳动力增加,社会分工精细。(2)需要标准和客观化的分类方法。2.心理测验的先驱(1)高尔顿的遗传理论测量简介高尔顿是优生学创始人、英国生物学家和心理学家。主要贡献a.他开创了个别差异心理学研究,并采用了定量研究方法。b他设计了许多简单的测验,如判断线条长短与物体轻重等,企图由各种感觉辨别力的测量结果来推估个人智力的高低。c.他还是应用等级评定量表、问卷法以及自由联想法的先驱。(2)卡特尔的个别差异研究简介卡特尔早年留学于德国,师从冯特(W.Wundt)。1888年,在英国剑桥大学任教期间,深受高尔顿影响。主要贡献a.他编制几十个测验,包括测量肌肉力量、运动速度、痛感受性、视听敏度、重量辨别力、反应时、记忆力以及类似的一些项目。b.他于1890年发表了心理测验与测量一文,首创了“心理测验”这个术语。(3)比奈和比奈一西蒙智力量表简介比奈,1857年生于法国,称为心理测量的鼻祖,他是发明智力测验常模量表的第一人。主要贡献:1905年,比内与其助手西蒙合作完成了世界上第一个智力测验量表比内一西蒙量表。3.心理测验的发展比奈一西蒙量表问世后,迅即传至世界各地。其中最著名的是美国斯坦福大学推孟(1.M.Terman)教授1916年修订的斯坦福一比奈量表,其最大的改变是采用了智商的概念,从此智商一词便为全世界所熟悉。20世纪2050年代心理测验主要有以下几方面的发展:(1)编制出一批操作测验,既可弥补语言文字量表在理论上的缺陷,又可适用于文盲和有言语障碍的人。(2)编制出团体智力测验,扩大了测验的应用范围。(3)多重能力倾向测验逐渐受到重视。(4)卡特尔的学生桑代克(E.1.ThOrndike)等人,利用心理测验原理,编制了第一批标准化的教育测验。因此后人尊称他为教育测验之鼻祖。(5)心理测验发展的另一领域涉及情感适应、人际关系、动机、兴趣、态度、性格等人格特点的测量。(6)60年代后,由于认知心理学的崛起,将实验法与测验法结合,产生了信息加工测验,为了解心理能力提供了一些补充方法,使心理测验出现了新的发展趋势。二、心理测验的性质(-)测验的定义1 .定义美国心理与教育测量学家布朗(F.G.BroWn)认为,测验是“测量一个行为样本的系统程序”。即心理测验就是通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。2 .对定义的解释(1)测验测量的是人的行为,严格来讲,只是测量了做测验的行为,即一个人对测验项目所进行的反应。(2) 一个测验不可能包含所要测量的行为领域的所有可能的项目,它所包含的只是全部可能项目的一个样本。(3)在编制、施测、评分和解释方面依据一套系统的程序。这种按照严格的科学程序去编制和使用,具有统一尺度并对误差作了严格控制的测验称为标准化测验。标准化测验有三点好处:可以减少无关因素对测验目的的影响,使测量准确、客观;有统一的标准,便于对不同人的测验成绩进行比较和交流:同一份测验可反复使用,较为经济。(二)测验的特性1 .间接性“间接性”是指到目前为止还无法直接测量人的心理活动,只能测量人的外显行为,即只能通过一个人对测验项目的反应来推论出他的心理特质。2 .相对性在对人的行为做比较时,没有绝对的标准,有的只是一个连续的行为序列。测量就是看每个人处在这个序列的什么位置上,由此测得一个人智力的高低、兴趣的大小等,都是与所在团体的大多数人的行为或某种人为确定的标准相比较而言的。3 .客观性测验的客观性实际上就是测验的标准化问题。测量的标准化要求:(1)测验用的项目或作业、施测说明、施测者的言语、态度及施测时的物理环境等,均经过标准化,测验的刺激是客观的。(2)评分计分的原则和手续经过了标准化,对反应的量化是客观的。(3)分数的转换和解释经过了标准化,对结果的推论是客观的。心理测验的客观性虽然尚需进一步提高,但它毕竟是测量人的心理特性的较为客观、较为科学的方法,目前,还没有更有效、更实用的方法能够取代它。三、心理测验的种类(-)按测验功能分类I.能力测验(1)普通能力测验普通能力测验即智力测验。(2)特殊能力测验特殊能力测验多用于测量个人在音乐、美术、体育、机械、飞行等方面的特殊才能。2 .成就测验(1)成就测验成就测验主要用于测量个人(或团体)经过某种正式教育或训练之后对知识和技能掌握的程度。因为所测得的主要是学习成就,所以称为成就测验,最常见的是学校中的学科测验。(2)与能力测验的联系与区别联系无论成就测验还是能力测验(包括能力倾向测验),所测得的都是个人在其先天条件下经由后天学习的结果。区别成就测验多是测量有计划的或比较确定的情境(如学校)中学习的结果,而能力测验,特别是能力倾向测验则是测量较少控制的或不大确定的情境中学得的结果,即在个人生活中经验累积的结果。3 .人格测验人格测验主要用于测量性格、气质、兴趣、态度、品德、情绪、动机、信念、价值观等方面的个性心理特征,亦即个性中除能力以外的部分。(二)按测验对象分类1 .个别测验(1)含义个别测验每次仅以一位被试为对象,通常是由一位主试与一位被试在面对面的情形下进行。(2)优点与不足优点主试对被试的行为反应有较多的观察与控制机会,尤其对某些人(如幼儿及文盲)不能使用文字而只能由主试记录其反应时,需采用面对面的个别测验。不足不能在短时间内由测验收集到大量的资料,而且个别测验手续复杂,主试需要较高的训练与素养,一般人不易掌握。2 .团体测验(1)含义团体测验是在同一时间内由一位主试(必要时可配几名助手)对多数人施测。(2)优点与不足优点主要表现为可以在短时间内收集到大量资料,因此在教育上被广泛采用。不足被试的行为不易控制,容易产生测量误差。(三)按测验方式分类1 .纸笔测验(1)优点测验所用的是文字或图形材料,实施方便,团体测验多采用此种方式编制。(2)不足文字材料易受被试文化程度的影响,因而对不同教育背景下的人使用时,其有效性将降低,甚至无法使用。2 .操作测验(1)优点操作测验项目多属于对图片、实物、工具、模型的辨认和操作,无需使用文字作答,所以不受文化因素的限制。(2)缺点大多不宜团体实施,要花费大量的时间。3 .口头测验测验项目为言语材料。主试口头提问,被试口头作答。4 .电脑测验测验项目可为文字或图形,在电脑上显示,被试按键作答。(四)按测验目的分类1 .描述性测验测验的目的在于对个人或团体的能力、性格、兴趣、知识水平等进行描述。2 .诊断性测验目的在于对个人或团体的某种行为问题进行诊断。3 .预示性测验目的在于通过测验分数预示一个人将来的表现和所能达到的水平。(五)按测验难度分类1 .速度测验速度测验的题目较为容易,一般都没有超出被试的能力水平,但数量较多,且时限较短,几乎每个被试都不能做完所有题目。在纯粹的速度测验中,分数完全依赖于反应速度。2 .难度测验难度测验包含各种不同难度的题目,由易到难排列,其中有一些极难的题目,几乎所有被试都解答不了。但作答时间较为充裕,使每个被试都有机会做所有的题目,并在规定时间内做完会做的题目,因此测量的是解答难题的最高能力。(六)按测验要求分类1 .最高作为测验最高作为测验要求被试尽可能做出最好的回答,主要与认知过程有关,有正确答案。能力测验、成就测验均属最高作为测验。2 .典型作为测验典型作为测验要求被试按通常的习惯方式做出反应,没有正确答案。-般来讲,人格测验测量的均属典型作为。(七)按测验性质分类1 .构造性测验在构造性测验中,所呈现的刺激和被试的任务是明确的。2 .投射性测验在投射性测验中.刺激没有明确意义,问题模糊,对被试的反应也没有明确规定。(八)按测验解释分类1 .常模参照测验常模参照测验是将一个人的分数与其他人比较,看其在某一团体中所处的位置。2 .标准参照测验标准参照测验是将被试的分数与某种标准进行比较来解释。(九)按测验应用分类1 .教育测验教育部门是测验应用最广的领域,许多能力和人格测验都可在学校中应用,但用得最多的是成就测验,通常指的教育测验,主要指后者。2 .职业测验职业测验主要用于人员选拔和职业指导,可以是能力和成就测验,也可以是人格测验。3 .临床测验临床测验主要用于医务部门。除感觉运动和神经心理测验外,许多能力和人格测验也可用来检查智力障碍或精神疾病,为临床诊断和心理治疗工作服务。以上几种分类都是相对的,从不同的角度进行分类,同一个测验可以归为不同的类别。第二章一、编制测验的一般程序(一)确定测验目的1 .测量对象在编制测验前首先要明确测量对象,即该测验编成后要用于何种团体。只有对受测者的年龄、智力水平、文化背景以及阅读水平等做到心中有数,编制测验时才能有的放矢。2 .测量目标所编的测验用来测量什么,也是必须首先考虑的问题。不但要明确测量的目标,还要对测量目标加以分析,将此目标转换成可操作的术语,即将目标具体化。3 .测验用途所编出的测验是要对被试做描述,还是做诊断,抑或是选拔和预测,这一点也是在测验编制前就应明确的。目的不同,编制测验时的取材范围以及试题难度等也不尽相同。(二)拟定编制计划1 .编制计划的含义编制计划,实际上就是对测验的总体设计,指出测验的内容结构和项目形式等,以及对每一个内容、目标的相对重视程度。2 .测验计划的用途(1)在编制阶段,测验计划指出应该编多少和编哪些种类的项目;项目编好后,可将项目的实际分布情况与测验计划对照,以确定测验项目是否恰当地代表了所要测量的领域,核对重要方面的内容是否有遗漏。(2)在记分时可按表中百分比确定每类项目的分数。()设计测试项目1 .搜集有关资料搜集资料需要注意的问题:(1)资料要丰富。(2)资料要有普遍性。2 .选择项目形式选择项目形式需要注意的问题:(1)测验的目的和材料的性质如果要考查学生对概念和原理的记忆,宜用简答题;要考查对事物的辨别和判断的能力,宜用选择题;要考查综合运用知识的能力,宜用论文题。(2)接受测验的团体的特点如对幼儿宜用口头测验,对于文盲或识字不多的人不宜采用要求读和写的项目,而对有言语缺陷的人(如聋哑、口吃)则要尽量采用操作项目。(3)各种实际因素当被试人数过多,测验时间和经费又有限时,宜用选择题进行团体纸笔测验,而人数少,时间充裕,又有某些实验仪器和设备时,则可用操作测验。3 .编写和修订项目制订项目的过程包括写出、编辑、预试和修改等一系列过程。在获得一个令人满意的项目之前,这些步骤是不断重复的。编写项目需要注意的问题:(1)项目的范围要与测验计划相一致;(2)项目的数量要比最后所需的数目多一倍至几倍,以备筛选和编制复本;(3)项目的难度必须符合测验目的的需要;(4)项目的说明必须清楚。(四)项目的预测和分析1 .预测(1)预测需要注意的问题预测对象应取自将来正式测验准备应用的群体。预测的实施过程与情境应力求与将来正式测试时的情况相近似。预测的时限可稍宽一些,最好使每个被试都能将项目做完,以搜集较充分的反应资料,使统计分析的结果更为可靠。在预测过程中,应随时记录被试的反应情形,如在不同时限内般被试所完成的题数、题意不清之处及其他有关问题。(2)预测的目的预测的目的在于获得被试对项目如何反应的资料。如:能提供哪些项目意义不清、容易引起误解等质量方面的信息。能提供关于项目好坏的数量指标。通过预测还可以发现一些原来想不到的情况,如检验时限多长合适,在施测过程中还有哪些条件需要进一步控制等。2 .项目分析项目分析分为两个方面:质的分析和量的分析。(1)质的分析从内容取样的适当性、题目的思想性以及表达是否清楚等方面加以分析。(2)量的分析对预测结果进行统计分析,确定项目的难度、区分度、备选答案的适宜性等。编制一套测验,只依据一次预测的结果所作的项目分析是不够的。为了检验所选出的项目的性能是否真正符合要求,有时需选取来自同一总体的另一样本再测一次,并根据结果进行第二次项目分析,看两次分析结果是否一致。如果某个项目的测试结果前后相差较大,表明该项目的性能值得怀疑。这种在两个独立样本中进行项目分析的过程称为复核。(五)合成测验1 .项目的选择项目选择的指标:(1)区分度项目的区分度越高越好,特别是对于选拔测验,此标准尤为重要。(2)难度难度多大为合适并无一个绝对标准,而要根据测验目的来确定。同一张试卷,题目难度也可以不同,只要整个测验的难度分布符合要求即可。同时,项目要与测验计划相符,项目的数量必须适合于所限定的时间。2 .项目的编排对项目的总的编排原则是由易到难,在测验最后可有少数难度较大的项目,以测出被试的最高水平。两种常见的项目的排列方式:(1)并列直进式并列直进式是将整个测验按项目内容或形式分为若干分测验,属同一分测验的项目,则依其难度由易到难排列。混合螺旋式是先将各类项目依难度分成若干不同的层次,再将不同性质的项目予以组合,作交叉式的排列,其难度则渐次上升。此种排列的优点是,被试对各类项目循序作答,从而维持作答的兴趣。3 .编造复本为增加实际的效用,一种测验有时需要有两个以上的等值型,即复本。复本越多,使用起来愈便利。测验的各份复本必须等值,所谓等值需符合下列几个条件:<1)各份测验测量的是同一种心理特质;(2)各份测验包含相同的内容范围,但题目不应有重复:(3)各份测验题型相同,题目数量相等,并且有大体相同的难度分布。(六)测验使用的标准化标准化是指为了减少误差,要控制无关因素对测验目的的影响,这个控制的过程称为标准化。具体包括以下几个方面:1 .测验内容标准化标准化的首要条件,是对所有受测者施测相同的或等值的题目。2 .施测过程标准化为了使测验条件相同,必须有统一的指导语和时间限制。(1)指导语对被试的指导语的要求指导语的内容通常包括对测验目的的说明和被试应该如何反应的指示(包括如何选择反应、记录反应以及时限等)。对于纸笔测验来讲,这些指示一般印在测验的开始部分,也可以印在另外一张纸上。要求简单明确,不引起误解。如果题目形式对被试来讲是生疏的,还应该有一些例题。对主试的指导语的要求由于主试的一言一行,甚至表情动作都会对被试产生影响,所以主试一定要严格遵守施测指导,不要任意发挥和解释。总的要求是,无论什么人在什么时候什么地点使用同一测验,都必须做同样的事,说同样的话。对主试的指导语与测验是分开的。(2)时限确定测验的时限,要考虑施测条件和实际情况的限制(如一节课时间的多少),以及被试的特点(如对儿童、老人、病人施测时间不宜过长),不过更重要的是考虑测量目标的要求。不同类型的测验对时限的要求a人格测验对时限的要求。对于人格测验来讲,反应速度是不重要的,可不必规定严格的时限,但是在测量能力和成就时,速度是需要考虑的一个重要因素。h纯速度测验对时限的要求。对于纯速度测验,时间应当严格限制,使被试中没有人能在规定时间内做完全部题目。Q纯难度测验对时限的要求。纯难度测验只考察被试解决难题的水平而不考虑完成时间。通常所用的时限是使大约百分之九十的被试能在规定时间内完成全部测验,如果题目由易到难排列,应使大多数人在规定时间内完成他会答的问题。确定时限的方法a确定时限一般采用尝试法,即通过预测来决定。假设根据第一次试测的经验,估计大部分被试可以在25分钟内做完,在第二次试测时,可以先叫被试用黑铅笔做20分钟,然后换成红铅笔,再过5分钟换成蓝铅笔,这样便可了解被试在规定时间内完成题目的数量。h在施测现场挂一只钟,每个被试做完后即将当时的时间写在试卷末尾,试卷收齐之后再根据被试完成情况规定合适的时限。3 .评分、记分标准化为使测验的评分尽可能客观,有以下三点要求:(1)及时而清楚地记录反应情况。特别是对口试和操作测验,此点尤为重要,必要时可以录音和录像。(2)要有一张标准答案或正确反应的表格,即记分键。选择题的记分健包括每一道题正确反应的号码或字母;问答题的记分键包括一系列正确的答案和允许的变化;论文题的记分键包含各种可接受答案的要点;人格测验不可能有明确而统的答案,记分键上指明的是具有或缺少某种人格特征者的典型反应。(3)将被试的反应和记分键比较,对反应进行分类。对于选择题来讲,这个程序是比较容易的;对于问答题和论文题,需要对评分规则作详细的说明,评分者需将每一个人的反应和评分说明书上所提供的样例相比较,然后按最接近的答案样例给分。总之,无论采用何种评分方法,都必须符合客观、准确、经济、实用四项原则。分数评出后还要进行合成计算,准确无误是对计分的基本要求。4 .分数解释标准化多数测验用常模作为解释分数的依据。(1)常模的含义常模是用来解释测验结果的参照标准,它的制定是依据测验适用对象总体的平均成绩。(2)建立常模的方法在将来要使用测验的全体对象中,选择有代表性的一部分人(称标准化样本),对此样本施测并将所得的分数加以统计整理,得出一个具有代表性的分数分布,此即为该测验的常模。常见的有年龄常模、年级常模、性别常模等。有些测验并不将被试的分数与其他人比较,而是看其是否达到某种标准,如体育达标测验、驾驶执照考试等。无论哪种测验,都要参照某个系统对原始分数加以转换,才能作出有意义的解释。(七)搜集信度、效度资料1 .信度信度指的是测量的可靠性或一致性。对一个测验进行标准化时,必须确定它的信度。2 .效度效度指的是测量的有效性或正确性,这是对测量工具的最基本的要求。衡量一个测量工具有没有效,就是看它所测量的是不是它所要测的东西。效度的确定方法,视测量的性质和目的而定。(A)编写测验手册测验手册需要包含的内容:1 .本测验的目的和功用:2 .测验的理论背景以及选择项目的根据;3 .测验的实施方法、时限及注意事项;4 .测验的标准答案和记分方法;5 .常模表或其他有助于分数转化与解释的资料;6 .测验的信度、效度资料,包括信度系数、效度系数以及这些数据是在什么情境下得到的。二、测验的项目分析一般来讲,测验的项目分析包括定性分析和定量分析两个方面。定性分析主要是依靠测验编制者丰富的经验和所受的训练,对项目的内容和形式是否得当进行分析。定量分析主要是指对项目难度和区分度等进行分析。(-)项目的难度1 .难度的含义难度是指测验项目的难易程度。一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。2 .与测验难度有关的因素(1)与所测的内容本身的难易程度有关。(2)与测验的编制技术和被试的知识经验有关。由于表述不清或者是因被试没学过,一个本来容易的项目可能变得较难。3 .难度的计算方法(1)是非题、选择题的记分方法对于是非题、选择题等采用二分法记分的项目,难度通常用通过率来表示,即用答对或通过该题人数的百分比作为指标:×oo*x式中P为项目的通过率,R为答对或通过该项目的人数,N为全体被试人数。用通过率代表难度时,P值越大其难度越小,P值越小其难度越大。(2)当被试人数较多时的记分方法当被试人数较多时,可以先将被试依照测验总分从高到低排列,然后将总分最高的27%和最低的27%的被试定为高分组和低分组,分别计算两组在某一项目上的通过率,最后用下式计算该项目的难度:,*炉,式中P、P分别为高分组与低分组的通过率。在选择题中,由于允许猜测,备选答案数目越少,机遇的作用越大,就越不能反映题目的真实难度。为平衡机遇对难度的影响,可用下面的公式校正:诏t-'A一1式中CP为校正后的通过率,P为实得通过率,K为备选答案数目。(3)论述题的记分方法对于论述题等不用二分法记分的项目,常常用下面的公式来计算难度:P-JX1.Oo%式中X为全体被试在某一项目上的平均分,X"该项目的满分。4 .难度分析的目的进行难度分析的主要目的是为了筛选项目,项目的难度多高合适,取决于测验的目的、性质以及项目的形式。(1)在实际工作中,有些测验是为了了解被试在某方面知识、技能的掌握情况,这时候对难度不必考虑过多,只要是教育者认为重要的内容就可以选用。一般来讲,为了使测验具有更大的区分能力,以选择接近中等难度的项目为好。(2)当测验用于选拔人员时,应该比较多地采用那些难度值接近录取率的项目。5 .难度对测验的影响由于人的多数心理特性是正态分布,而目前所采用的统计分析方法又大都以正态分布为前提,所以大多数测验在设计时希望分数显现正态分布的模式。如果被试的取样具有代表性,对于中等难度的测验,其分数分布应呈正态。但是,测验难度过大或过小,都会造成测验分数偏离正态分布。并不是所有测验都要求其分数分布为正态。(1)测验分数呈现正偏态如果项目难度普遍较大,被试的得分普遍较低,使低分段出现高峰,呈正偏态。正偏态说明,被试得分集中在低端,表明题目偏难。如图2-1所示。图2/难度大,正偏态分布(左)图2.2难度小,负偏态分布(右)(2)测验分数呈现负偏态如果项目难度普遍较小,被试的得分普遍较高,使高分段出现高峰,呈负偏态。负偏态说明,被试得分集中在高端,表明题目偏易。如图2-2所示。(二)项目的区分度1 .区分度的含义区分度是指测验项目对被试的心理特性的区分能力。2 .区分度的意义区分度高的项目,能将不同水平的被试区分开来;区分度低的项目,则不能很好地鉴别被试水平。3 .区分度的表示方法区分度一般用D表示,取值范围介于±1之间。一般来讲,D值越大,区分效果越好。4 .区分度的计算方法(1)鉴别指数法当效标分数是连续变量时,可以从分数分布的两端各取27%的被试,分别计算每道题目的通过率,二者之间的差别即项目鉴别指数D。公式如下:D=P-P式中P;为高分组在某项目上的通过率,P:为低分组在该项目上的通过率。1965年,美国测验专家伊贝尔(1.Ebe1.)根据长期的经验提出用鉴别指数评价项目性能的标准,如下表所示:鉴别指数(D)项H评价0.401.U1:很好0.30-0.39R好.修改后公更佳0.20-0.29尚可.但需修改0.19以下差,必狈海法(2)相关法计算区分度最常用的方法是相关法,即以某一项目分数与效标分数或测验总分的相关作为该项目区分度的指标。相关越高,则该项目区分度越高。二列相关a.适用范围二列相关适用于两个连续变量,但其中一个变量被人为分成两类。如当一个测验的项目分数是连续变量,而效标(总分)被分为高、低(或及格、不及格)两个类别;或当一个测验的效标(总分)是连续变量,而项目分数被称为对、错(或通过、未通过)两个类别时,可采用此种方法。在计算二列相关时,要求二分变量的分布在连续测量时必须是正态分布。如果样本分布不是正态,总体分布也应是正态。对于连续变量的分布,虽不要求其是正态,但必须是单峰,而且要对称。当两个变量均为连续变量时,一般使用皮尔逊(K.PearSon)积差相关公式计算。b.计算公式,产早或式中X为与二分变量通过组对应的连续变量的平均数,X为与二分变量未通过组对应的连续变量的平均数,三为连续变量的平均数,S为连续变量的标准差,p为通过组人数与总人数之比,q为未通过组人数与总人数之比。y为P与q交界处正态曲线的高度。二列相关系数r显著性考验可用下面的公式:>VN式中,N为总人数,其余符号与二列相关公式所用的符号相同。如果Z值大于1.96,即为显著相关。点二列相关a.适用范围点二列相关适用于一个变量为连续变量,另一个变量为二分变量(或双峰分布)的数据资料。例如,选择题答对记1分,答错记0分,这时题目分数为二分变量,而总分为连续变量。在计算点二列相关时,只要求连续变量是单峰和对称的分布,而二分变量不受正态分布的限制,因此它比二列相关的用途更广泛。b计算公式J=号.南或J=空f式中符号意义与二列相关公式所用符号意义相同。考验点二列相关是否显著与考验积差相关系数的显著性相同。此外还可以用t检验的方法比较与二分变量对偶的两组连续变量的平均数的差异是否显著,如平均数的差异显著,则相关系数也显著。(三)区分度与难度的关系一般来讲,较难的项目对高水平被试区分度高,较易的项目对低水平被试的区分度高。当难度为1或0时,区分度将是0,即题目没有区分被试实际水平的能力;难度为0.5时,题目的区分度达到最大值。(四)项目分析的特殊问题1 .选择题反应模式的分析对于选择题,除了分析其难度和区分度外,还要分析被试对每个备选答案的反应情况。一般主要做以下分析:(I)如果正确的备选答案被所有被试所选择,则说明该题目太容易或者题目中可能提供了某种暗不:(2)如果某个错误答案没有一个被试选择,说明该选项不具迷惑性,错得过于明显,一般而言,除非有2%以上的人选择,否则这个备选答案就应该修改;(3)如果所有被试都选择了同一个错误答案,可能是编制测验时把答案定错了,也可能是在教学中发生了错误;(4)如果高分组被试的选择集中在两个答案上,二者选择率相近,说明该题可能有两个正确答案或另一答案也有一定道理;(5)如果高分组对正确答案的选择与低分组相等或低于后者,说明所考察的东西与水平无关;(6)如果一个题目被试未答人数过多或选择各个备选答案人数相等,则说明题目过难或题意不清,使得被试无法作答或凭猜测作答。2 .标准参照测验的项目分析(1)难度分析标准参照测验可以采用常模参照测验的方法来计算难度,但是在筛选项目时,对难度水平的要求与常模参照测验不同。由于标准参照测验的目的是为了考察被试对某方面的知识技能的掌握情况,因此,只要能反映教育目标或教育者认为重要的内容,无论其难度为多少,都可以编入测验。例如,在教学开始之前,为了了解学生的准备状态所进行的前测,多数题目将产生很低的通过率,但这些题目应该保留,因为它们表明了哪些东西需要学习。在进行一段教学之后,为了检查学生的掌握情况所进行的后测,即使每个题目都有很高的通过率,这些题目也是可用的,因为它们反映了教学的效果。同一道题在教学前后对学生进行测验,学生的得分如为FP模式(F为失败,P为通过),则说明教学取得了较好的效果或题目较好;如为FF模式,说明教学效果太差或题目太难了;如为PP模式,说明题目过于容易了;如为PF模式,则说明这个题编制有错误或者教学上出现了错误。(2)区分度分析方法一:根据测验分数将被试分为达标组与未达标组,然后分别计算它们在某一项目上的通过率,两组考生通过率之差,便是该项目的区分度。a.计算公式:D=PP.式中P、P为达标组与未达标组在某一项目上的就宜率。b.存在的问题:这种方法的主要问题是分组标准不同,得到的区分度值不同。方法二:用同一测验对同一组被试在教学前后各施测一次,分别统计各项目前后测的通过率,二者之差便是项目的区分度。a.计算公式:/M1.KD=PN-P式中P、P分别为项目在后测和前测中的通点率。丁D值越高,说明项目对教学效果越敏感,所以有人将其称为教学效果敏感指数,其公式也可写为:JS=5,N式中S为敏感指数,R和R分别为前测、后测通过的人数,N为学生总数。b.存在的问题:同一测验施测两次可能会产生练习效应,成绩的提高窕竞是由教学引起的,还是由练习引起的难以分辨;只有等两次施测后才能进行项目分析;当D值低时,难于做出明确的解释,无法确定是由试题不良还是由教学不当所致。方法三:取两组条件相近的考生,一组接受过同测验有关的学科的教学,另一组没有接受过此种教学。施测同一测验后,分别统计每组考生答对某题的人数,两组考生通过率之差便是该题的区分度。a.计算公式:D=p-p式中P和P分别为教学组和未经教学组对某题的通过率。b.存在的问题:两组考生除在教学方面不同外在其他有关方面必须同质,而这一点是很难做到的。第三章一、测量的误差(一)误差的定义及种类1 .误差的定义误差是在测量中与目的无关的因素所产生的不准确的或不一致的结果。2.误差的种类(1)随机误差与测量目的无关的偶然因素引起的变化无规律的误差,使得多次的测量结果不一致,这种误差的大小和方向是随机的,因此称为随机误差。随机误差既影响测量的准确性又影响一致性。(2)系统误差与测量目的无关的因素引起的恒定的有规律的误差,它稳定地存在于每一次测量中,这种误差称为系统误差。系统误差只影响测量的准确性。(二)误差的来源1 .测验自身引起的误差测验自身的误差主要来源于测验的编制过程,其中项目取样影响最大。(1)当测验的项目较少而取样缺乏代表性时,被试的反应很难代表其真实水平。(2)对于有些类型的项目,例如是非题、选择题,被试可能凭猜测作答,从而降低分数的可靠性。(3)题目用词模棱两可,或对要求叙述不清等,也都会带来误差。2 .施测过程引起的误差(1)测试环境施测现场的温度、光线、桌面高低好坏等对被试都有影响。(2)测试时间时间安排也是影响测试准确性的一个重要因素,如果时间安排不当或时限不统一,必然会引起测验结果的改变。(3)主试因素主试的年龄、性别、外表、言谈举止、表情动作、对测验过程的熟悉程度等都能影响测验的结果。如果不按照规定施测,如给予暗示、制造紧张气氛等都会带来很大的误差。(4)意外干扰在测试环境复杂,特别是当被试人数较多时,可能发生意外情况,从而影响到测验结果的准确性。(5)评分记分评分不客观和记分出现错误也是较常见的误差。一般来讲,客观题的评分较为准确客观,而主观题的评分标准难以掌握,再加上阅卷者的风格、情绪以及其他心理因素的干扰,因而很难保证分数的一致性。3 .被试引起的误差在测量工作中,最复杂的和最难控制的是由被试本身引起的各种误差。(1)应试动机被试对测验的动机不同,会影响其作答态度、注意力、持久性及反应速度等,从而影响测验的结果。在测量成就、能力时,被试如果动机不强,被试就不会尽力作答。如果被试动机效应在反更测量中以一种恒定的方式出现,会导致系统误差;如果动机效应引起了偶然性的不稳定反应,会导致随机误差。(2)测验焦虑测验焦虑是被试在应试前和测试中出现的一种紧张的情绪体验。测验的焦虑会影响被试的反应。一般来讲,适当焦虑会使人维持一定的兴奋水平,注意力增强,反应速度加快,从而对测验产生积极的影响。但过高的焦虑会使工作效率降低,注意力分散,思维狭窄,反应速度减慢,因而会大大影响成绩。测验成绩与焦虑程度呈倒U型关系。(3)测验经验被试对测验的经验也会影响测验的成绩。对于任何一种项目形式,当被试对其还比较陌生的时候,其测验成绩可能会比较低;但是如果提供足够的演示和练习,其测验成绩一般都会提高。(4)练习效应任何一个测验在重复使用时,由于被试对测验的内容和程序已经相当熟悉,因此会使成绩提高。(5)反应倾向独立于测验内容的反应倾向,也会使得本来能力相同的被试获得不同的成绩。对于速度测验,由于测验时间有限,而题量又较大,求快与求准两种不同倾向会对测验成绩产生影响:对于是非题,某些人可能有偏好选“是"或选“非'的倾向;对于选择题,有些人可能有偏好选择某个位置或偏好选长项的倾向;对于人格测验题目,有人可能会掩饰自己。(6)生理变因生病、疲劳、失眠等生理因素,以及在智力、情绪、体力等方面的生物节律也会影响测验成绩而带来误差。(H)真分数1 .真分数的含义真分数是指在测量没有误差时所得到的真值,它只是一个理论上构想的概念。真分数的操作定义是无数次测量结果的平均值。2 .真分数的数学模型把任何一个测验成绩都看作是真分数和测量误差的和,这是经典测量理论(CCT)的基本思想。即:经典测量理论假定,观察分数(X)与真分数(T)之间是一种线性关系,并且只相差一个测量误差(E)。用公式表示为:X=T+E,这就是CTT的数学模型。其中,测量误差E指的是引起测量不一致的变因所产生的效应,即指随机误差,不包括系统误差。E可能是正的,也可能是负的。因此,一个人的实得分数可能大于真值,也可能小于真值,总是围绕着真值上下波动。I.真分数的假设根据公式X=T+E,可以引申出三个相互关联的假设公理:(1)若一个人的某种心理特质可以用平行的测验反复测量足够多次,则其平均误差为0,即其观察分数的平均值会接近于真分数,用公式表示为:E(X)=T或E(E)=0;(2)式分数和测量误差之间相互独立,即(T,E)=0;(3)各平行测验上的误差分数之间相关为零,BP(Ei,E2)=0o4.实得分数、真分数和测量误差之间的关系对于一个团体来讲,实得分数、真分数和测量误差之间有如下关系:S=Sr+Se即实得分数的变异数等于真分数的变异数加上误差变异数。这里只涉及随机误差的变异,系统误差的变异包含在真分数的变异中。即真变异数还可以分成两个部分:与测量目的有关的变异和与测量目的无关的变异,即:式中S-是与测量目的有关的(亦即有效的)变异数,S是与测量目的无关但却是稳定的变异数。S是由所要测量的变因引起的,S是由其他变因引起的。将前面二式合并可得到:Si=.St+S?+Si因此,一组测验分数的变异性是由与测量目的有关的变异数、稳定的但出自无关来源的变异数和随机误差变异数所决定的。二、测量的信度(一)信度的含义信度是指测量结果的稳定性与一致性程度。在测量学中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率。即中百式中的r称为信度系数;St?代表其分数的变异,Se代表总变异数,即实得分数的变异。(二)估计信度的方法I.再测信度(1)含义用同一个测验,对同一组被试前后两次施测,两次测验分数所得的相关系数为再测信度。因为它能反映两次测验结果有无变动,也就是测验分数的稳定程度,因此又称稳定性系数。(2)计算公式r=ZX'X/*X式中X、X为同一被试的两次测验分数,、I为全体被试两次测验的平均分数,S、S为两次测验的标准差,N为被试人数。(3)计算再测信度应满足的假设条件所测量的特质必须是稳定的;遗忘与练习的效果相同;两次施测期间被试的学习效果没有差别。(4)采用再测信度应注意的问题两次测验的时间间隔要适当。时间太短,第一次的回答记忆犹新,因而夸大了稳定性:时间太长,由于受学习、