关灯
护眼
字体:

第一节 题库建设(第1页)

章节目录保存书签

第一节题库建设

题库建设主要包括题目编制、参数标定、题库组织三个方面。

一、题目编制

认知诊断测验中题目的编制主要强调题目的诊断功能,也就是编制的题目应该能够用于诊断被试的知识、技能、策略的掌握状态(即属性掌握状态),以保证测验有合理的结构效度。关于如何编制具有认知属性诊断功能的题目的具体方案,艾姆布雷孙等人提出的基于认知心理学理论的认知设计系统具有很好的指导作用,相关内容已经在本书的前面章节中进行了阐述。

另外,还需要考虑测试每种属性的题目数量。被试的属性掌握状态从理论上说是有无限种类型的,如果用离散模式(即1-掌握或0-未掌握)来表示被试对属性的掌握状态,那么属性掌握模式是有限的。然而,因为被试对每种属性的掌握程度可能不同,因此,为了能够稳定鉴别不同被试的真实属性掌握状态,需要针对每种属性编制足够多的测试题目,以保证测试结果有较高的信度(信息量)。

测验长度当然是影响测量结果精确性的关键因素,然而,计算机化自适应测验的一个优势是能够用更少的题目对被试做出更精确的评价。而在认知诊断测验中,题目质量和题目间的属性组合模式均会显著影响测量结果的精确性。

为了能够用更少的题目更精确地对被试进行诊断,一方面,要保证进入题库的题目必须有较好的测量学参数,另一方面,还必须要根据目标领域认知模型,合理分配题库中的题目与各种属性的组合模式。

计算机化自适应测验从根本上来说属于个体测验,它为每个不同个体量身定制合适的测验版本,当然,参加测试的被试会有很多,而且可能有各种不同的属性掌握模式和掌握水平。那么,在这种测试环境下,如何设计一个优良的题库,在节约题目编写工作量的同时,又能保证各类被试均能被高效又准确地诊断呢?彭亚风等人(2017)对该问题进行了系统研究,并得到一些值得借鉴的结果。研究结果认为,在题库容量方面,目标测试领域内属性个数及其层级关系下的典型项目考核模式种类是决定题库容量的重要指标。直线型、收敛型和发散型所需的题库容量是对应的典型项目考核模式种类的4~5倍,而无结构时为3~4倍。在题库包含的项目类型及其项目数量方面,每种项目类型的项目数量与该项目类型所包含典型项目考核模式的种类有关,且因属性层级关系的不同而不同:在直线型和收敛型情况下,每种项目类型包含的典型项目考核模式均为5个左右;在其余3种属性层级关系下,随着项目类型中考察的属性个数的增加,对应所包含的每种典型项目考核模式的项目个数依次减少:考察1~3个属性的项目类型中每种典型项目考核模式的项目个数分别约为5、4、3个,考察4个至K-1个属性的项目类型中每种典型项目考核模式的项目个数均为2个左右,以及1个左右考察K个属性的典型项目考核模式。

二、参数标定

认知诊断测验中题目参数的标定同样包括测量学参数和内容参数两大类。测量学参数会因为使用了不同的模型而有不同的参数类别,如DINA模型就包括基于题目水平的猜测参数g和失误参数s,而NIDA模型的参数就是基于属性水平的,而RRUM模型则更加复杂一些。参数标定主要涉及参数估计技术,一般还会涉及参数的等值。具体实现方法请参看本书的相关内容。当然,由于认知诊断模型众多,许多模型的参数估计和等值技术需要具体问题具体解决。

内容参数主要是题目测试的具体属性的标定。

三、题库组织

在编制了足够多的符合认知诊断目的的题目,且标定了题目的所有相关参数之后,还需要考虑如何有条理地组织这些题目,以便测试的过程更加高效,对于大型题库尤其如此。计算机化自适应测验的整个实施过程都是在线的、即时反应的,而且同时参加测试的被试数量可能较多,因此,题目的挑选过程必须是高效的。对个体来说,在测试的不同阶段需要挑选不同类型的题目,在IRT-CAT中,主要考虑在初始阶段和精确估计阶段使用不同难度和区分度的题目,因此题库的组织经常根据题目测量学参数进行分类。而在CD-CAT中,除了考虑题目的测量学参数之外,题目的属性组合模式是需要考虑的同等重要的问题。对于整个测试群体来说,还需要随着测试的进行考虑题目的曝光控制问题,跟踪题目使用情况并做出必要的处理,如对过度曝光的题目暂时休眠等。题库中可能还需要对题目在线更新过程进行跟踪。

章节目录