第一节 认知诊断评价测验设计及题目编写(第1页)
第一节认知诊断评价测验设计及题目编写
在大规模评价项目中,最常用的测量工具就是测验,基于对测验及项目的深入分析,可以对被试个体和群体的水平进行评价。作为评价工具的测验质量直接影响结果的准确性和有效性。经典测量理论和项目反应理论对被试的评价是基于一个累加总分或能力特质分数,这个指标能够对被试水平进行排序,但很难进行更细致的评价。
一、认知诊断评价测验设计目标
认知诊断评价理论提出的最根本目的就是实现对被试水平更细致的分析,诊断出影响被试作答表现的内部原因,发现被试在某特质领域里的认知发展状态和不足之处,从而协助被试和教育者针对不足进行辅导。为此,认知诊断评价理论需要首先定义测验测量的领域知识、加工技能、加工策略等,雷通等人(Leighton,Gierl,&Hunka,2004)将这些认知属性及其层级结构关系叫作认知模型,强调认知模型应该在测验项目编制之前就定义好,以指导测验项目的编制,这样才能保证测验内容结构的唯一性和稳定性。
艾姆布雷孙等人(Embretson&Gorin,2001)认为过去我们在编制测验时几乎忽略了认知心理学的指导价值。在传统的测验编制中,测验结构的定义非常模糊,测验项目编制者也是主要凭经验进行工作,测验项目编制完成后,由学科领域专家进行审核,最后通过试验性数据分析来证明测验的效度。大多数情况下,试验数据分析结果并不会根本改变测验的组成及其结构。其实,一开始的测验设计和最后得到的测验结构之间经常是不一致的,而且研究者会更相信最后的试验分析结果。
艾姆布雷孙等人强调认知心理学理论、方法在指导测验编制时具有的独特的重要性。在典型的认知心理学研究中,主试在实验中设置和操纵各种任务条件,以检验关于某个结构及其加工机制的假设。在实验中,任务特征可以系统变化以产生不同的加工难度。关键是,在认知心理学研究中,理论是研究者预先精细假设的,设置和操纵任务是为了验证该理论假设是否成立,理论和任务两者之间的逻辑关系非常严密。这种研究范式和传统的测验编制模式存在明显的不同。
艾姆布雷孙等人认为认知心理学至少可以从以下几个方面促进测验效度的提高:①辅助定义测验结构和编制题目任务,详细定义影响任务难度的特征;②为诊断性评价提供理论基础,详细定义完成任务所需的知识、技能;③为自动评分提供准则,指导结构定义、测验设计和任务设计的有机整合;④为题目自动生成算法提供结构定义和刺激特征描述。
二、认知设计系统
艾姆布雷孙等人提出了基于认知心理学理论的认知设计系统(itivedesignsystem,CDS),指导如何设计符合某个特定结构定义的题目。认知设计系统包括两个框架:一是概念框架(ceptualframework),二是程序框架(proceduralframework)。
概念框架区分了结构效度两个相对独立的方面:结构表征和结构广度,分别表示结构本身的内涵定义和结构概念的外延范围。结构表征代表的是在任务解决中涉及的知识结构、加工过程和策略。认知心理学的研究范式主要是支撑结构表征的界定,任务的刺激特征定义及其难度的数学表达模式是主要的研究内容。结构广度涉及的是本测验分数与其他测量之间的关系,但不关心概念结构本身的内涵,这与克隆巴赫和米尔斯定义的概念网络(nomologietwork)不同。当然,结构广度的验证过程必须基于结构表征的内容基础之上。将结构表征从结构广度中区分出来,可以让认知心理学理论和方法真正指导测验题目的生成和评价,因为它可以明确定义影响题目难度的精细化的刺激特征。
程序框架包括了一系列步骤,界定如何在认知心理学理论基础上进行测验设计。为了使编制的题目能够测量预先定义的结构,就需要首先了解影响题目解决过程的系列具体刺激特征。程序框架共包括七个步骤,当然,这些步骤并不是一成不变的,为了使编制的题目符合要求,有些步骤就需要反复进行。这些步骤是:
①定义测量目标。测量目标需要从两个方面进行单独界定,一是测量结构的表征,二是测量结构的广度。
②针对具体任务领域,定义各类任务的设计特征。这些设计特征,或叫刺激特征,是组成各类具体题目的设计单元。通过变换认知加工、策略和知识结构,可以验证题目特征对应的结构表征。识别这些认知特征需要对认知心理学理论有较深入的理解。
③定义一个统一的测验认知模型,主要涉及三个方面:一是必须定义好测量的知识结构、认知加工过程和加工策略,这就必须进行广泛深入的文献调查研究;二是必须从操作的角度定义反映这些结构表征的具体刺激特征,最好通过实际题目来进行示例表示;三是需要基于实际题目和实测数据,对各认知特征的测量学特性进行分析,以评估各认知特征对题目难度、区分度的相对影响大小。
④设计和命制题目。在这个阶段,根据题目结构定义及各种组合替代规则,将各类刺激特征组合成实际的题目。题目结构定义的变化意味着不同的认知加工要求。将设计好的题目组成测验进行测试。
⑤根据测试结果对认知模型进行评估。这个阶段非常关键,因为需要验证测验的结构表征是否正确,以及题目的设计生成过程是否合理。对认知模型和测量学模型的合理性均需要进行验证。在认知模型的验证中,因变量是平均反应时和题目难度,自变量是题目的结构以及题目的刺激特征。根据各刺激特征的影响程度来评估其代表的认知特征的影响程度,验证的过程可能需要结合严密的实验操纵过程来进行,以保证结论更加可靠。测量学模型的评估是评价其与项目反应数据的拟合程度。
⑥生成题库。如果认知模型及各类刺激特征定义是合适的,那么,我们就可以通过组合不同难度的刺激特征,来生成不同认知复杂度的题目。
⑦结构广度的效度验证。生成的题目和测验是否达到了结构广度定义的要求,需要根据该测验和题目与其他测量结果之间的关系进行验证。
艾姆布雷孙等人提出的认知设计系统非常严密,对编制高质量的认知诊断测验具有重要的指导意义。然而,该系统在实际测验和项目编制中可能会遇到各种困难,该设计系统对每个步骤要求都非常严格,测验和项目设计者很难完全按标准做到。然而,作为一个参照标准,特别是指导认知诊断测验的编制时,测验设计者应该高度重视其价值。
三、测验题目与属性的组合模式设计
在认知诊断评价中,测量结果的精确性会同时受到测验长度(题目数量)、题目质量和题目与属性的组合模式的影响。因此,在保证题目编制数量和质量的同时,还必须要从总体上考虑测验中的题目与属性的组合模式设计。