石大教育测量与评价教案02教育测量的质量指标.docx
《石大教育测量与评价教案02教育测量的质量指标.docx》由会员分享,可在线阅读,更多相关《石大教育测量与评价教案02教育测量的质量指标.docx(10页珍藏版)》请在课桌文档上搜索。
1、第二章教育测量的质量指标第一节信度一、信度的概念信度指测量结果的稳定性或可靠性程度,亦即测量的结果是否真实、客观反映了老先生的实际水平。可从三个方面来考虑:第一,信度指实测值和真值相差的程度测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真值。但由于各种原因,实测值与真值之间必然存在误差。但误差越小,说明信度越高。(实测值)=T(真值)+E(误差)由于真值是未知的,因此误差值是大是小也是未可知的。一般为求得最接近的实测值都是通过多次实测取其平均值来作为真值的近似值。但这一方法缺乏实际可操作性,也无法求得信度的大小。第二,信度是指统计量与参数之间的接近程度统计量和参数是统计学中的两个基
2、本概念。统计量是指样本上的各种数字特征(如样本的平均数、标准差等),参数是总体上的各种数字特征(如总体的平均数、标准差等)。统计量越接近参数,这个统计量的可靠性程度就越高,因此信度越高。而要知道统计量与参数的接近程度高,可以对参数进行区间估计,这种方法对估计真分数有用,但仍然无法计算出信度。第三,信度指两次重复测量或等值测量之间的关联程度。如果对同一对象进行两次重复测量或者等值测量后,计算两次测量的相关系数,相关系数越高,说明测量的信度越高;反之,信度越低。但应注意的是,重复测量会受到被试的经验、知识的增长等因素的影响,等值测量又较难编制,因此,采用这种方法计算信度时,也是有误差的。信度是任何
3、一个测量的必要条件,对于教育测量来说,它具有更为重要的意义。因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对象的某种特点,更加需要注意测量的信度。二、信度的理论公式见P32。这里需要注意的是,对实得分数进行分解后,可以分解成真分数的方差、随机误差的方差两部分。很明显,随机误差的方差越小,测量的信度就越高。信度取值范围为0,1。三、信度的类型用上面的理论公式计算不了信度,因为真分数根本不知道,如果知道就不用算了。实际中常用以下几种方法(也就是几种不同的信度):(一)稳定性系数(重测信度)指用同一测验试卷,在先后两个不同时间内对同一组被试进行测验,两次测验实得分数的相
4、关系数。这是最简单的估量信度的方法。要注意的是:(1)重测法只适用于速度测验而不适用于难度测验;(2)所测的信度大小,常常受到两次测验时间间隔长短影响;(3)第二次测验没有吸引力,不易引起被试的兴趣;(4)要实施两次测验,耗费人力、物力和时间较多。(二)等值性系数当同一测验的一种型式不能或不适合实施两次时,就需要采用该测验的另一个平等测验或者复份(复本)。复份要求在测验的内容、题数、格式、难度、平均数、标准差等方面应与原测验一样,否则,估计的等值系数就会出现较大误差。决定等值系数的方法是,先实施第一次测验,然后在最短时间内实施第二份等值的测验,再求它们的相关系数,这个相关系数就是信度的等值性系
5、数。采用复份法估计信度系数要注意:(1)两次测验试卷要等值,即在内容范围、题型、题数、难度、区分度等方面要基本相同;(2)两次测验要尽可能在较短的时距内进行;(3)确定两次测验是否等值,还要考察两次测验结果的平均数与标准差。但在实际操作中,要编制两份等值的测验是非常困难的。(三)内部一致性系数前面两种估计信度系数的方法都是要测验两次的,但在实际的测验之中,一方面教师很难编制两份等值的试卷,学生也没有那么多时间和精力重复参加测验。因此需要根据一次测验来估计测验的信度系数。这就是内部一致性系数,即把一次测验人为地分成两个部分,比较两个部分的一致程度,从而估计信度系数。按照分成两个部分的不同,内部一
6、致性系数的估计方法有两种:1、分半信度这种方法是将一次测验分成两个假定相等而独立的部分来记分,通常是以题目的奇数为一组,偶数为一组,计算两组的相关系数,最后用斯皮尔曼一布朗公式校正,求得整个测验的信度系数。(公式见教材)2、库德尔一理查森公式法用这种方法只需要测验一次,然后以各个问题的正确反应数为基础(此可视为各题难度的信息),或根据各人部分的平均数和标准差,计算信度系数。库德尔一理查森公式有好几个,最常用的是I*KR20和kr2or*KR2O的用法:以每题能正确回答的人数占总人数的百分数为基础计算(每题只有通过或未通过两种分数)。具体公式见教材。R21的用法:这个公式以各反应者总分的平均数和
7、方差为基础计算,无需各题难度的信息。公式见教材。计算内部一致性系数,需要注意下列问题:A、若用分半法时,以按奇数题和偶数题分为两半为宜。若把整个测验分为前后两半,一方面前半部试题与后半部试题未必等值,另一方面被试者在完成后半部试题时,可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度。B、若速率是测验的重要因素,则不宜用分半法,因为速度测验中试题的难度低,被试者得分多少,在很大程度上是因为答题的多少,分半法易使得分相同,从而夸大分半法的信度估计。C、如果答案多种多样,得分也多种多样时(如论文式考试),则不能用上列公式计算一致性系数。(四)论文式测验的信度系数论文式测验的评分,没
8、有严格的评分标准,以致同样一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫所创的系数公式(见教材)。(五)评分者信度一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不同的评分者对同一份试卷往往给分不同,甚至有很大悬殊。在作文测验、投射测验、品德测验、创造力测验等的评分中,都存在这个问题。计算这种信度需要区分评分者的人次数。若为2人评N份试卷,可用斯皮尔曼等级相关计算;若为三人以上评N份试卷,则用肯德尔和谐系数计算。四、提高信度的方法(一)信度以多大为宜:对于学科测验,要求达到0.9以上;智力测验要求达到0.8以上;品德测验能达到0.6以上就
9、不错了。(二)测量误差的来源1、测验本身所引起的误差:测验本身的有些因素会直接产生误差:如题目格式中的判断题猜测的可能性会很大;规定的时限;用词不准确引起的误解;题目的多少等。测验所包括的测题样本也会引起测量误差。2、测验的实施所引起的误差:如指导语错误,对答案纸的错划、时间记录的错误、主试本身的主观影响、记分误差等。3、被试引起的误差:这是最难控制的误差,具体表现为动机的作用;学习、发展和教育的影响;对于测验的经验;测验的焦虑;生理因素等。(三)提高测验信度的方法1、适当增加测验题目的数量,即可提高信度也可提高效度;2、测验的难度要适中,这样信度能达到最大,也能使测验区分度达到最大;3、测验
10、的内容应尽量同质;4、测验的程序应统一,包括试卷统一、测验开始时的指导语、回答问题的方式、分发及收回试卷的办法、测验时间的掌握等,特别应该提到的是,考试的组织问题、监考问题等,这是关系到测验信度的重要因素;5、测验的时间要充分;6、评分要尽量做到客观化、减少评分误差。第二节效度一、概念指测量结果的准确性和有效性的程度,亦即测量是否达到了预期目的。首先,测量的效度始终是对一定的测量目的而言的。一般而言,任何测量都有某种特定的目的和功能,判断效度高低,就是判断测验达到目的的程度。其次,测量的效度也是对测量的结果而言的。一种测量工具只能经过实际测量,才能根据出来的结果判断它的效度。所以也可以把效度理
11、解为测量的结果正确反映所欲测量的特性或功能的程度。对于任何一种测量来说,只有当它的测量结果真实、正确地反映所欲测量的功能和特性时,才能认为这种测量是较为有效地或效度较高的。第三,一种测量的效度只是高或低的问题。因为,一种测量在编制时,总是针对一定目的而编制的。不存在无效度的测量,只是高或低的问题而已。第四,在教育测量中,效度问题比在其他领域的测量更为重要。因为,首先,教育测量的对象大多是精神现象,只能通过对其具有可测性的外部表现(如言语或动作等)的测量,以间接认识其心理活动、心理特征或知识水平等。其次,学生的心理活动、心理特征与其外部表现之间,一般仅具有相关关系而无函数关系,外部行为并不能准确
12、无误地反映某种心理状态。此外,教育测量的对象不是物而是具有主观能动性的人,人能有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难度。二、效度的理论公式实得分数可分解为潜在真分数,系统误差,随机误差三部分。具体关系见教材P43。三、效度的分类及估计(一)、内容效度指测验目的代表所欲测量的内容和引起预期反应所达到的程度,也就是测量内容的代表性程度。在编制测验时,内容效度是一个相当复杂和不易解决的问题。以成绩测验来说,固然要求测验题目能代表所学习过的全部内容,但仅仅在形式上做到这一点还不能保证足够的内容效度,因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力几种行
13、为反应去考察。如果测验题目大多是只需要牢记教材就可以回答的问题,那么,对全面测验学生的成绩这一目的来说,内容效度仍然不RJo估计内容效度的方法:1、逻辑分析的方法。这是根据教育学和心理学的理论,根据教学大纲要求,勾画出学生掌握知识内容的范围和深度,提出应形成的技能名称,然后以逻辑分析的方法估计测验在多大程度上代表了这些内容,在多大程度上能够测量出所要测量的特性和功能。2、用测验题目与教材内容比较的方法。这需要先制两个表:一个是测验的双向细目表(见第三章),分别列出所要测验的各单元教材内容在考题中应占的百分比和所要求的各种行为的反应在全部反应中的百分比。另一个表是测验试题分类表,根据各单元教材内
14、容列出试题,并注明该题所要求的行为反应及其应占的百分比。然后对照这两个表,根据各个部分相符合的程度判断内容效度的高低。(二)效标关联效度又称经验效度或统计效度,是以测验分数和效标之间的相关系数来表示测验的效度高低的。效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲测量的特性的变量,作为检定效度的参照尺度。效标关联效度又可分为同时效度和预测效度。同时效度指测验与当前效标之间的关系程度;预测效度指测验与将来的效标之间的关联程度。如用全国高考的成绩作为效标来检验高中毕业会考的成绩,计算两者的相关系数就是会考的同时效度;而用大学一年级的成绩作为效标来检验高考的成绩,两者的相关系数就是高考的预
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教育 测量 评价 教案 02 质量指标
![提示](https://www.desk33.com/images/bang_tan.gif)
链接地址:https://www.desk33.com/p-344686.html