第二节 项目与测验质量评价(第2页)
测验质量评价是从整体上评价测验在测量被试水平时的稳定性和有效性,也就是评价测验的信度和效度水平。
(一)测验信度评价
信度反映了测验受到随机误差因素影响程度的大小。随机误差因素非常多,研究者已经针对一些重要的随机误差因素开发了测量其影响大小的方法和技术。比如,时间对测验结果稳定性的影响,研究者一般通过同一测验在两次不同时间测量结果的一致性程度来表示;题目抽样对测量结果一致性的影响程度则通过复本信度、分半信度或其他内部一致性信度指标来测量;等等。项目反应理论基于项目参数计算测验对不同能力水平被试提供的信息量大小,以此反映测验在估计被试能力水平时的测量误差,项目参数反映了项目本身的编制质量。
在认知诊断评价中,测验结果的稳定性或一致性同样是非常重要的问题,在提供诊断性结果的评价中,这甚至是一个需要更加重视的问题。
诊断结果随时间的稳定性同样可以根据两个不同时间测试结果的一致性程度进行评价。但是在认知诊断评价中,有两个具体问题需要在测验结果一致性检验时加以考虑。一是诊断的目标内容本身随时间的推移而发生变化的规律。有些诊断的目标特质随着时间的推移呈现出非常稳定的特征,如智力水平、性格特征、价值观等,而有些特质则会随着时间的推移而出现明显的变化,如知识的掌握、技能的进步、情绪特征等。对于不同的诊断目标特质,在评价测验的稳定性时,其测试的时间间隔和评价标准是不同的。二是测验结果一致性的具体计算方法。在认知诊断评价中,被试水平通过一个向量来表示其在各个属性上的掌握状态,而在各个属性上的掌握状态可能是离散的,也可能是连续的表示形式。对于离散型数据,我们可以借鉴模式匹配率(patternmatR)和平均属性匹配率(averageattributematR)的计算方法来评价测试结果的一致性程度。PMR和AAMR指标的计算方法如下:
其中,N为样本容量;Ni_match表示被试i在两次测试中的属性掌握模式是否完全一致,完全一致取值1,否则取值0;K为测验属性个数;Nik_match表示在两次测试中被试i对属性k的掌握状态是否完全一致,完全一致取值1,否则取值0。
对于连续型数据,我们也可以模仿以上匹配率的构建模式来构建一致性评价指标。但由于误差因素的影响,连续型数据很难达到模式完全匹配的结果,因此,我们只构建基于每个被试在每个属性上的整体一致性指标,该指标称为平均属性一致性(averageattributecy,AAC)。该指标的计算形式如下:
题目抽样给测验结果一致性带来的影响也可以通过复本信度、分半信度等指标来测量。但是在计算结果一致性时,同样需要考虑被试水平表示方式的不同导致解决办法在形式上的差异。由于同样是评价两组被试水平测试结果的一致性程度,因此,我们还可以借鉴重测信度的评价方法来对测验内部一致性进行估计。
以上两个测验结果一致性指标是用比率的形式来表示的,用于评价测验在结果一致性上的相对质量,但并没有提供绝对的标准。
(二)测验效度评价
测验效度是测验的本质特征,是评价测验价值的基本指标。心理测量的目标是通过测验等方法,以观察分数的形式来获得被试在某个潜在特质上的位置水平的信息,并将此信息应用于评价被试在不同领域的适应性水平。效度是衡量测验达到开发者评价目标的程度的指标。评价测验效度的角度有两种:一是从测验本身内容的角度评价测验测量的目标领域完备性;二是从测验外部寻找测验有效性的证据。测验本身的内容是外部有效性的理论基础,外部有效性则是测验拓广价值的体现。
从测验本身内容的角度评价测验有效性,主要论证测验是否很好地代表了测量目标领域的内容。雷通等人认为,认知诊断评价首先需要建立关于目标领域的认知模型,该认知模型包括了知识、技能、策略等及其层级关系。然后,领域专家严格按照该认知模型的定义命制测验题目。艾姆布雷孙等人提出的认知设计系统(见上一节内容)则对认知模型的构建、测验题目的设计和模型的验证进行了详细的规划,是编制一份具有较好结构效度和内容效度的测验的指导规则。
当然,在严格按照设计规则命制了测验之后,我们仍然需要对该测验的内容效度进行考察。验证的具体过程就是,找到一批独立于测验项目命制专家的领域专家,由这批专家独立地对所有测验题目测试的属性进行重新定义,建立测验属性Q矩阵,并以此属性矩阵来评估测验是否很好地代表了目标领域的内容及其权重。
有许多途径可以从测验外部寻找测验有效性的证据。编制认知诊断测验的目的是诊断被试在测验本身代表的目标领域中发展的不足之处,因此,实验干预的方法是检验该类测验有效性的最佳途径。有研究者(Tatsuoka&Tatsuoka,1997)就用实验干预的方法验证了诊断测验的有效性。他们首先通过前测(pretest)对被试在某领域的认知状态进行诊断,发现这些被试认知发展的不足之处,然后针对这些不足之处进行补救教学和辅导,在认为这些被试已经掌握了相应的内容之后,对被试进行后测(posttest),以检验针对相应内容的干预效果。他们还在一段时间之后检验了被试对知识内容的保持状况。还有研究者也是通过前测、干预教学、后测加访谈的方法检验了英语阅读技能诊断测验的有效性。
本章小结
效度与信度是评价任何测验编制质量必需的指标。相对于传统的评价测验,认知诊断评价测验的编制是一个更加精细化的过程,它需要一个更加严密的测验编制指导架构来支撑题目的编制过程。
艾姆布雷孙等人基于对认知心理学理论、方法在指导测验编制时具有的独特重要性的认识,提出了指导测验编制的认知设计系统,该指导架构逻辑非常严密,对编制高质量的认知诊断测验具有重要的指导意义。
初步测验编制后的质量分析是保证测验实现诊断目标的关键步骤。项目质量分析和测验整体质量分析均是为了保障测验的效率、信度和效度。
思考题
1。请深入思考和分析艾姆布雷孙等人提出的测验编制原则和具体流程。
2。如何保证认知诊断测验的信度和效度?