第二节 项目与测验质量评价(第1页)
第二节项目与测验质量评价
认知诊断测验的质量评价包括对单个项目质量的评价和对测验整体质量的评价。测验作为评价被试素质水平的工具,无论是单个项目质量的评价还是测验整体质量的评价,其目标均是能够为评价被试提供稳定的、有效的信息。
一、项目质量评价
在经典测量理论和项目反应理论中,项目质量分析包括项目呈现形式的分析(如文字表述方式、提问方式、选项内容长短不一等方面的检查)、选项分析、难度和区分度分析等,在项目反应理论中,还可以针对测验目标分析每个项目的信息量(测量误差信息)等。
在认知诊断评价中,项目质量分析的内容角度与项目反应理论基本是一样的,但认知诊断测验项目的应用情境还是有一些关键的不同之处,因此在具体的项目质量分析过程中存在一些差异。
首先,在认知诊断评价中,测验项目编制的主要目的是对被试进行诊断,而不是对被试进行排序或选拔。诊断测验一般是低厉害测验。因此,项目的功能主要是诊断各类被试学习不足的方面。
其次,在认知诊断评价中,对被试的评价并不是在一个一般(general)维度上的水平测量,而是对多个子属性的掌握状态的评估。因此,不同项目可能测量了不同的子属性,项目质量评价就需要考虑在不同子属性上的测量信息。
再次,在认知诊断评价中,不同的诊断模型或方法构建差异非常大,其参数意义也存在很大的不同。因此,在用模型参数对项目质量进行评价时并不能一概而论。
最后,在认知诊断评价中,作为评价的目标——被试属性发展状态的表示方式也存在差异。潜分类模型将被试属性发展状态表示为在一系列属性上离散的掌握模式,而连续潜特质模型则将被试属性发展状态表示为在一系列属性上连续的掌握模式。被试水平的不同表示方式会影响基于被试测试数据的分析方式。
根据项目质量分析的一般架构,同时结合认知诊断评价的具体情境,对认知诊断测验的项目质量分析可以从以下几个方面进行。
一是项目内容及其表述方式的检查。项目内容表述不清,容易使作答者无法理解或理解出现偏差,从而导致出现不同的作答结果,无法准确认定被试的认知属性。对项目内容表述方式的检查一般是要求文字表述清楚且通顺,不会引起误解。文字的表述尽量使用短句,不要有太多的连接词和修饰词,尽量不要使用反问句式。文字表述的内容要使作答者和题目命制者在意义理解上达成一致。
具体的内容检查过程中,先由有经验的测验编制专家对各个项目的表述方式进行完整的检查;然后找到部分被试代表对各个项目表述的意义进行解释,并尝试作答,以此分析被试对各个项目意义的实际理解是否与命题专家一致。
二是选项分析。针对选择题型一般需要进行选项分析。在经典测量理论和项目反应理论中,一般认为,选项中除了正确选项就是错误选项。在认知诊断评价中,项目的选项分析显得尤为重要,它认为项目的各个选项均提供了关于被试属性发展水平的信息,当然这对选择题型题目命制者也提出了更高的要求。
在进行项目选项分析之前,需要从测验开发者那里获得关于各个选项测试的属性及其水平的信息。一般来说,一个项目测试的属性最好不要随着选项的变化而变化,但是可以随着选项的变化而表示不同的属性掌握水平,每个错误选项代表一种错误的解题规则。
在认知诊断测验项目选项分析中,首先从内容上分析各个错误选项是否代表了该项目测试属性的主要错误规则。选择题的选项除正确选项外,一般代表了对某个概念或规则理解的偏差,这也正是认知诊断评价的主要关注目标。在某属性上可能的主要错误规则需要领域专家进行判断,因此,第一项选项分析工作需要领域专家完成。其实,这项工作可以在测试之前的认知模型定义或题目命制阶段完成。
假设第一步工作已经做得很好,选项分析的第二步就是统计每种选项上的被试人数。但在认知诊断评价中,我们关注的重点并不是正确选项人数是否占优势,或错误选项之间分布是否均匀等问题。我们关注的是代表不同错误规则的错误选项上的人数比例。如果某错误选项上的人数比例较高,这可能意味着教育者的教育过程出现了问题,当然也很可能是该选项表达的内容很难与正确选项区分开来。如果某错误选项基本上没有作答者选择,那么可能因为其表述的倾向过于明显,当然也有可能是作答者根本不会出现这类错误规则,该选项就应该被删除。
三是项目参数质量分析。项目参数分析是项目质量分析中的重要内容之一。在经典测量理论中,项目参数主要是从测试群体的角度进行评价的,它要求项目区分度高,难度适中。在项目反应理论中,项目参数则可以从测试个体的角度进行评价,它仍然要求项目区分度高,但项目难度则可以针对不同的被试水平有不同的价值,被试水平与项目难度越接近,则可以获得越大的信息量。总之,在评价被试时,项目参数的大小是有优良之分的,因为它能影响测量误差的大小。
在认知诊断评价中,根据对数据资料的不同解释逻辑,构建了许多包含不同参数的模型,这些模型参数的意义也不相同。但无论项目参数如何构建,各种模型的被试参数反映的总是关于属性的掌握状态。项目参数是以被试的实际作答表现来估计的,反映了被试某方面的分布特征,与被试水平分布有着内在的关联。在评价被试属性掌握状态时,不同模型的项目参数值大小同样有优劣之分、合适与不合适之分。
被试属性与测验属性是一致的,但不同项目测试的属性及属性个数可能并不相同,因此,项目提供的信息是针对其测试的属性来说的。由于模型参数不一致,所以我们无法统一评价项目参数的大小,但我们可以给出项目参数评价的基本原则,那就是参数的大小应该以评价被试相应属性提供的更大信息量为标准。以DINA模型为例,其项目参数包括失误参数和猜测参数,两种参数均是表示作答结果偏离被试真实水平表现的程度,也就是说,这两个参数值越大,意味着该项目在评价被试真实水平时会有更大的误差,信息量也就越小。不过,失误参数和猜测参数分别反映了被试群体的不同分布特征,失误参数反映了高水平被试的作答分布特征,而猜测参数则反映了低水平被试的作答分布特征。失误参数值高意味着该项目不适合评价高水平被试,猜测参数值高则意味着该项目不适合评价低水平被试。如果两个参数值均较高,则该项目应该被替换。
二、测验质量评价