第二节 题目属性定义和检验(第1页)
第二节题目属性定义和检验
题目属性定义一般有两种情形:一种是在已经定义好了测量目标认知模型的情形下,有目标地命制适合不同属性及其结构的题目;第二种情形是对于已经命制好的题目,需要事后给题目定义属性。
一、题目属性的事先定义
在定义好了测量目标认知模型的情形下命制题目,这应该是一个比较直接的过程。根据前面关于测量目标认知模型定义的方法,同时结合文献调查、专家定义对各类数据分析之后,可以得到一个关于测量目标认知模型的细致定义,包括各认知成分的定义及其结构关系的定义,而且还匹配一套关于认知成分的比较标准的示例题目。命题专家在这些信息的基础上命制题目,只需要严格按照认知模型的定义和提供的示例题目,这样获得的题目和属性之间应该可以保持比较高的一致性。
二、题目属性的事后定义和验证
为命制好的题目事后进行属性定义,这是一个过程。在进行题目属性定义之前,当然也需要首先定义测验的认知模型,测验认知模型的定义过程和上一种情形是相同的,只不过在当前这种情形下,题目命制和认知模型的定义是两个独立的过程,是事后再将两者结合在一起的。事后题目属性定义的方法主要有两种:一种是专家定义法;另一种是统计推断法。
专家定义法是领域专家参照定义的认知模型,为题目指定属性。如果认知模型定义地足够细致,且有参照示例题目,那么,专家的题目属性定义过程应该会比较有效。如果条件允许,最好能够给领域专家提供代表性被试的作答过程原始资料,以保证属性定义结果更加稳定有效。在专家定义法的实施过程中,针对每套题目,至少应该安排3位领域专家进行独立属性标定,最后对定义的结果进行一致性程度评价。如果整体一致性程度较低,那么专家对测验认知模型的理解可能存在歧义。如果只是在某些题目属性的定义上一致性程度较低,那么就需要根据具体问题分析产生的原因,最后专家达成一致意见。
应用统计推断法来给题目定义属性,是一种基于数据驱动的属性定义方法。统计推断法定义题目属性主要应用在两个方面:一是对已定义属性的题目进行验证,基于数据信息判断属性定义是否合适;二是对未定义属性的题目指定属性。
认知诊断模型用于描述拥有某种属性掌握模式的被试在定义了属性模式的题目上的作答反应。如果模型无法描述这两者之间的关系,那么模型参数就会表现异常。比如,当题目属性定义错误时,它就无法与被试属性掌握模式之间产生正确的对应关系,导致函数模型被扭曲,模型参数出现异常。许多研究者基于这种逻辑提出了不同的题目属性验证方法,以及对这些方法的改进。这里只介绍其中的两种方法供读者参阅和研究。
德拉托尔(delaTorre,2008)提出了一种基于DINA模型的题目属性验证方法——基于EM算法的δ系列搜索法(thesequentialEM-basedδ-method)。假设某领域有K个属性,用αl(l=1,2,…,2K)表示2K种属性掌握模式,qj表示题目j的属性向量。对于DINA模型来说,如果题目属性定义正确,那么,掌握了所有属性的被试与未掌握所有属性的被试之间的正确作答概率之差应该达到最大,即正确的题目属性定义qj应该满足如下定义:
德拉托尔又提出了两种基于该指标的搜索正确题目属性定义的方法(delaTorre,2008):一种是穷尽搜索法;另一种是系列搜索法。
系列搜索法就是按属性个数进行逐步搜索,从局部最优过渡到整体最优。具体过程如下,首先从包括一个属性的属性向量开始进行比较,在这个局部计算所有的δj值,将使δj值最大的属性纳入下一步的属性组合。比如,在第一轮中,如果第一个属性计算的δj值最大,那么,下一轮将基于第一个属性与其余属性组成两个属性的向量计算δj值,而其他两两属性组合将不被考虑。如果第二轮的计算结果是第一个属性与第三个属性组合的δj值最大,那么,下一轮将基于第一个属性、第三个属性与其余属性组成三个属性的向量计算δj值。如果这一轮计算的所有δj值均小于上一轮最大的δj值,那么,搜索过程终止,否则按上述方法继续,直至发现最大δj值为止。系列搜索法比穷尽搜索法的计算量更小。
基于实际测试数据的属性验证过程还涉及题目参数和被试属性掌握模式的估计问题,每次更换题目属性向量时,可能就需要同时更新所有参数估计结果,这是一个非常庞大的计算。为此,提出了基于EM算法的解决方案(delaTorre,2008),其项目参数的估计为:
式子中的上标0和1分别代表了未掌握所有规定属性的被试期望作答结果和掌握了所有规定属性的被试期望作答结果(具体的参数估计过程请参见后面章节中关于基于EM算法的边际极大似然估计的相关内容及其示例)。
基于实际测试数据对题目属性进行统计推断的方法不可避免地会遇到统计算法中经常出现的问题。首先,参数估计会受到实际数据的影响而可能出现偏差,特别是在当前问题情境下,错误的属性定义可能还会给其他项目参数的估计传导误差效应。另外,统计推断的参照标准的确立会直接影响统计推断结果,因为在实际测试数据情形下,统计量值总是在波动变化,可能会服从某种分布规律,但在进行统计推断之前,需要确定其分布规律及判断临界值。比如,在当前问题情境下,δj值既包括真值,也就是真正由不同掌握模式被试导致的真实差异,也包括误差值,也就是实际测试数据中可能包含的各种误差来源的影响效应。因此,最大的δj值对应的属性掌握模式不一定就是真实的题目属性向量。作为标志题目属性定义合理性的统计量——δj值能够为统计推断提供支持信息,这些支持信息必须结合专家判断才能做出合理的决策。
喻晓锋等人(2015)受项目反应理论中模型-资料拟合检验方法的启发,提出一种题目属性定义和检验的方法。他们认为,在认知诊断评价中,测验中的题目属性定义与作答反应数据的拟合情况,应该也是可以按照类似项目反应理论中的模型-资料拟合检验的方法进行检验的,选择拟合指标最好的题目属性向量作为当前作答反应数据所对应的题目属性定义。基于这种逻辑假设,提出了一种简单易懂的定义和验证题目属性向量的方法:基于似然比统计量,同时对被试的属性掌握模式、题目参数和题目的属性向量进行联合估计和验证。
首先,假设已经有少部分题目属性被正确定义,称这部分题目的集合为“基础题”,记为Qbase。属性向量未定义的题目集合为“新题”,记为Qnew。采用“增量”的方式每次从“新题”集合中选择一个题目(记为qnew)累积加入Qbase中,然后联合估计Qbase的题目参数、qnew的属性向量和题目参数,直到所有新增题的属性向量和参数都被估计。接下来的估计过程包括两大步骤。
第一步是估计所有新增题目的属性向量和题目参数,包括以下几个具体步骤:
①从Qnew中选择一个题目,记为qnew,将qnew加入Qbase中,并且把qnew作为第1个题目;
②以Qbase、qnew和作答数据为基础,使用MMLEEM算法(delaTorre,2008)联合估计题目参数和被试的属性掌握模式;
④重复步骤①③,直到所有新增题目都被估计,则得到包含所有题目的属性向量矩阵Q。
第二步是对所有题目的属性向量和题目参数进行校正,包括以下几个具体步骤:
⑦算法结束,得到Q矩阵的最终估计值。
第一步对每个题目进行估计时,每次是“增量”式地选择一个新题进行估计,当包含的“基础题”较多时,这种方法会有利于对每个新题的估计,因为此时数据包含较多有用的信息和较少的噪声信息。但是当“基础题”的数量较少时,即当数据包含的信息不足以对某些新题进行估计时,偏差可能会出现。当然,正如其他统计推断方法一样,基于统计量的决策总是会受到测试数据误差的影响,因此,最终结果应该结合专家判断进行综合决策。
本章小结
领域目标的定义是评价活动的参照标准,如果参照标准出现偏差,评价活动将失去意义。领域目标的定义应该将自上而下的理论逻辑驱动与自下而上的任务材料列举有机结合,这样既能够保证领域目标定义的完备性,又能够保证测量过程的精确性。
题目属性定义包括两种形态:基于已定义的属性命制题目和基于已命制的题目定义属性。无论哪种形态下的题目属性定义,都需要专家定义与数据分析相结合。专家定义提供了关于题目属性定义的理论和个体先验信息(基于大量过去经验的总结),数据分析提供了关于题目属性定义的样本测试数据信息,两种信息的有机结合能够提供关于使题目属性定义得更加完备的后验判断。
领域目标的定义是题目编制的基础,题目编制是为了测量和评价具体被试或群体在领域目标上的发展状态。测验题目属性定义是为了使编制的测验与领域目标有机地结合在一起。
思考题
1。如何从任务内容角度和潜在特质结构角度定义领域模型?
2。领域认知模型建构的主要方法有哪些?
3。你了解的题目属性定义和验证的主要方法有哪些?它们有哪些优势和不足?