关灯
护眼
字体:

第二节 认知诊断评价理论假设检验(第1页)

章节目录保存书签

第二节认知诊断评价理论假设检验

认知诊断评价理论提出了诸多的模型,每种模型都有与之相适应的问题情境。在选择一个合理的模型之前,首先需要分析问题情境,检验模型是否很好地描述了该问题情境。只有模型和问题情境之间相互适应,基于该模型进行的数据分析和结果评价才是有效的,否则其结果就会偏离评价的目标,产生误导。

一、作答过程真实性检验

在测量过程中,被试真实地表达自己的能力水平或意愿,是保证测量结果和评价过程准确性的基础。

检验被试作答过程是否真实的最直接的方法,就是通过客观取证的手段,即重要的测量项目在严格的监控条件下进行,通过监控直接观察被试的作答状态。在许多情形下,通过直接查看监控以发现被试作答真实性是难以实现的,特别是当测量的对象规模非常大时,这时就需要通过能够进行大规模筛查的方法进行甄别。当然,有些不真实作答即使通过监控也是很难辨别的,如不认真地随机作答。

另外,可以从测量的具体过程进行分析,检查测试过程是否能够保证激发被试足够的动机以尽量真实地表现自己的特质水平。首先,要看测试的目的是什么,如果测试是用于研究的,那么被试的行为动机可能就没有那么强烈,导致作答结果不能完全反映被试的真实能力水平。如果测试是用于选拔、达标等可能影响被试自身利益的,那么就可能激发被试强烈的行为动机,从而使被试尽量真实地表现自己的能力水平。当然,对于社会倾向性测验,其作答情形可能正好相反,即被试在作答这类测验时,特别是当测验结果可能会影响自身的前途时,被试往往会企图掩盖自己的不足,做出符合社会一般期许的反应。对于测验目的可能给测验数据造成不同结果的问题,我们需要谨慎地对待。我们很多时候收集数据都是用于研究的,相比用于选拔等的测验,其结果的测量误差一般会更大,信度也会更低,当然效度也就会受到影响。麦克丹尼尔(Miel)等人就通过元分析发现,面试成绩对工作绩效的预测效度由于目的不同(研究目的和管理目的)而存在显著差异。所以,用于不同目的的测验一般不宜直接进行比较,需要首先进行必要的校正。其次,要检查测验施测时使用的指导语能否激发被试的作答动机,有些测验即使是用于研究的,我们也可以通过恰当的指导语来激发被试足够的作答动机。一般来说,除了一般需要说明的指导语之外,通过以下方法可以尽量地获得被试的真实作答反应:①让与被试有密切关系的人作为主试宣读指导语并监控测试过程;②明确说明研究的意义,意义的表达必须能够引起被试的关注,许多研究的意义可以从长远意义和社会意义的角度进行阐述;③明确表达研究的艰巨性,以及被试的作答对研究成败的关键性作用;④明确说明被试作答之后将会获得奖赏;⑤明确说明作答结果完全保密,且绝对不用于个人评价,并亲笔签上研究者的姓名(不能打印和复印)以做出承诺。另外,检查测试时的客观环境是否能够激发学生的作答动机也是非常重要的。在组织测试时,应该首先获得与被试关系密切者的积极支持和配合,在这方面应该花较多的时间进行沟通和商谈,并得到正式的支持承诺。测试最好不要安排在被试的休闲时间,测试的过程和形式应该让被试感觉到非常正规,还要注意测试地点的布置和安排不要影响被试正常作答。最后,要检查是否保证了足够的测试时间,以便被试能够充分发挥正常水平来作答所有测验项目。关于测验测试的时间,首先需要有经验的测验编制者进行主观估计,同时,还必须进行预测试以获取测试真实的正常时间。

我们还可以通过事后数据分析,检查是否存在作答数据不够真实的证据。数据分析可以主要从两个角度进行。首先,从数据描述的角度,可以从以下几个方面进行检查:①测验是否存在大量未作答情形,有经验的测验设计和编制者一般会较好地考虑到测试时间的合理安排。在这种情况下,如果作答数据中仍然出现大量未作答情形,那么,我们有理由相信被试没有认真作答。②被试总体得分分布偏离预想。一般情况下,研究者总是想选择一批特质水平分布较宽的被试,因此会通过预先调查来选择合适的被试。然而,如果被试的实际作答结果严重偏离研究者的预想,这也可能成为我们怀疑被试作答过程真实性的证据。③被试个体在各个项目上的作答没有规律。研究者在设计测试项目时,总是会根据自己的经验设计不同难度或不同维度的项目。然而,如果被试在所有项目上的作答结果没有表现出符合预期的规律,那么,我们也可以怀疑他没有认真作答。④被试作答结果存在形式上的规律性,如选择题的答案全部一致,或答案循环安排,如“ABC-ABC-ABC”的作答形式,这也可以作为被试未认真作答的证据。从数据推断的角度,可以从以下两个方面进行检查:①回访。研究者可以在测试以外的时间回访部分参与测试的被试,探查他们当时真实的作答态度和原因。当然,这个回访一定要在完全放松的环境下进行,让回访对象完全放松,不存在任何顾虑。关于访谈的方法和技巧,可以参考相关文献的内容。②效度验证。研究者可以收集一些关于测验的效标数据,如被试的老师对他们平时表现的评定、期末考试成绩、性格评定,等等。通过与这些效标证据的比较,可以大致看出被试的作答过程是否表现真实。

现在有许多学者研究了使用统计方法检验被试作答结果的真实性。这种方法一般需要首先建立真实作答状态下的理论模式,然后通过鉴别各种实际作答模式与理论模式之间的距离,从而做出作答真实性程度的判断。

龙冈(Tatsuoka,1996)在其提出的认知诊断方法中构建了一个个人作答模式拟合指数——ζ,用于鉴别被试的非正常作答模式。我们可以将其作为一个检验被试作答真实性的统计指标加以应用。由于后面的章节会详细介绍该指标,因此,这里只是简单介绍这个指标在检验作答真实性时的可能应用。

将f(X)重写为X的线性函数形式:

对于能力值为θi的被试,函数f(x)的期望为0,其方差为:

于是,作答模式拟合指数ζ就定义为函数f(X)的标准化形式:

根据上面的定义,我们可以注意到,当固定某个被试时,T(θ)、K(θ)和Var[f(X)]均为常数,而P(θ)也是固定的向量。也就是说,当我们在验证某个作答模式是否异常时,ζ指数只受到实际观察作答模式X与期望作答模式P(θ)之间一致性程度的影响。当X与P(θ)越保持一致变化趋势时,f(X)越小;当X的大小顺序偏离P(θ)的大小趋势时,f(X)就会增大。需要再次提醒的是,f(X)的期望为0,但实际上f(X)可能会取正值,也可能会取负值。

作答模式拟合指数ζ反映了被试实际作答模式偏离理论作答模式的程度,如果ζ值比较大,研究者就应该怀疑该被试的实际作答模式是不正常的。那么,究竟ζ值多大才应该被怀疑呢?这可能需要根据整个测试群体的ζ值分布,同时结合往年根据经验发现的非正常作答比例来协助判断。但无论如何,统计量只能为找出异常作答模式提供辅助信息,研究者却不能只依赖该信息做出被试是否作答异常的最终判断。

二、局部独立性检验

局部独立性检验与IRT中的检验原则是一样的。局部独立性检验需要从被试和项目两个角度进行。

从被试作答的角度检验其局部独立性,这其实与第一个假设,即作答过程真实性假设存在一些内容的交叉,但局部独立性假设主要强调统计意义上的依赖性偏差,重点关注欺骗性作答,主要是确定被试个体的作答过程没有得到任何外部因素的协助,完全是其自身特质水平的真实表现。

被试作答的局部独立性检验一方面可以通过当时对测试过程的监察,以发现被试是否存在借助外部因素为自己的作答提供便利的情况,这是最客观可信的检验手段;另一方面可以通过数据分析的方法检查被试是否存在非正常作答情形。我们可以合乎逻辑地认为:在正常作答情形下,低水平被试只能答对低难度项目,对更高难度项目的正确作答概率比较低;只有高水平被试才能答对几乎所有低难度项目,同时对高难度项目的答对概率更高。从另外一个角度来说,如果被试能够答对高难度项目,那么他就应该有更高的概率能够答对更低难度的项目,同时,被试答对相同难度水平的项目的概率应该是相近的。如果实际作答情形不符合这种规律,那么,我们就有理由相信某(些)被试可能存在非正常作答行为。基于以上这种逻辑判断和规律,我们就可以通过统计分析的手段对非正常作答情形进行探查。在具体进行探查时,关键是首先要知道被试的真实水平。如果只有被试水平的排序信息,也是可以进行探查的,然后根据不同水平的被试,对比他们之间的实际作答模式,以找到怀疑他们作答过程异常的证据。关于被试的真实水平信息,如果研究者能够从外部获取关于被试真实水平的评价,当然是更加客观公正的,但大多数情形下,特别是全国性大规模测验,获取每个被试水平的外部独立评价是非常不现实的,因此,必须从测试数据内部进行分析。

第一种方法是以测验总分作为被试水平的标志,然而,由于测验总分包含了所有题目的得分,包括在非正常作答项目上的得分,因此,这种方法只有在非正常作答项目占分比例较低的情形下才有效。可是,在分析之前却又无法确切知道被试在哪些项目上存在非正常作答的可能,因此,这种方法虽然简单,但却显得比较粗略,只能进行初步的探查。

第二种方法是可以从被试的作答模式上进行分析,也就是根据被试对不同难度水平项目的作答情况进行评价。首先对测验的所有项目进行难度排序,被试如果能答对难度较高的项目,他就很可能答对难度水平更低的项目,当然,偶尔答对一个较高难度项目的情形应该排除在外。同时,相近难度水平项目的答对概率应该是比较一致的。如果被试的作答反应模式与项目难度的排序存在显著的差异,我们就应该怀疑其作答不正常。那么,如何检验作答反应模式与项目难度排序之间的差异呢?这方面的判断还没有统一的标准,研究者可以比较正确作答项目与错误作答项目之间的难度平均数,也可以根据排序不正常项目在测验中所占的比例进行判断。不过,前文作答过程真实性检验描述的ζ统计量在此同样可以提供判断依据。

第三种方法是检查相同作答模式被试的分布比例。对于1、0记分题目,一个测验包含30多个项目是非常正常的。从理论上来说,30个项目组成的测验将有230种作答模式,也就是有超过10亿种被试作答反应模式。当然,在正常情形下,有些作答模式是不可能出现的,如高难度项目答对,而容易项目答错的作答模式,还有些作答模式本来就有更多的出现可能。其实,如果把被试作答模式与被试能力水平对应的话(很多测量学研究者就是这样处理测验作答数据的),那么各种作答模式出现的概率就应该服从与能力水平一样的分布。在这种情况下,如果按测验总分排序的作答模式分布偏离正常分布太大,我们就可以有理由怀疑测验中可能存在非正常作答情形,因为非正常作答模式经常只出现在几个孤立的分布点上。因此,在探查非正常作答模式时,经常需要首先对分布进行平滑化处理,然后比较某个点上的正常分布与实际分布之间的差异。当然,这种探查方法对大规模测验中可能出现的集中舞弊现象可能会比较有效。

不过,用统计分析手段对非正常作答被试进行探查,在有些情形下很难有效。因为在实际测试中,被试一般是对在自己能力水平范围内的题目自己独立作答,而对较难的项目才借助外部力量。这样的话,其作答结果仍然会呈现出比较合理的模式。因此,统计分析过程需要仔细、谨慎,综合多方面信息进行判断。

从项目的角度检验其局部独立性,主要是要确定各个项目之间是否存在内容相依或结果关联。一方面,我们可以通过专家分析的方法,判断测验中的各个项目之间是否存在相互依存关系。另外,项目之间的局部独立性有时候还可能会受到测验题目形式的影响。比如,关于相同题干下的多个设问题型,被试对题干的不同理解可能就会影响该题干下所有问题的作答结果,语文和英语阅读理解就是这类题型的典型例子,而相同题干下的多步骤解答记分题型,除了会受到相同题干的影响之外,后续步骤的解答还会受到前面步骤解答正确与否的影响。另一方面,我们也可以通过统计分析的方法,判断测验项目之间是否存在相依关系。现在把经常用于检验项目相依关系的统计量称为Q3统计量,该统计量的定义过程如下:

首先,定义

其中,uik为第k个被试在第i个题目上的得分,Pi(θk)为被试正确反应概率。根据这个式子的定义,可以计算出每个被试在每个项目上的d值。然后,定义

r为两个题目i和j之间的相关系数,其相关系数的计算是基于式(4-5)所定义的d值的,也就是说,在计算相关系数之前,首先需要把得分矩阵中的各个0和1形式的分数转换为d值。当我们所选择的项目反应模型与测验数据拟合良好时,Q3统计量的相关系数r按照Fisher转换为z值后,将服从正态分布,其平均数为0。对于三参数逻辑模型,其方差为1(n-3),其中,n为参与相关系数计算的被试样本容量。相关系数r按照Fisher转换为z值的式子如式(4-7)所示:

ln为取自然对数符号。当然,读者也可以通过查表的方式获得转换值,许多应用类统计书都会提供这类转换表。

有研究者又指出,使用Q3统计量对项目相依性进行检验的实际应用,很少基于正态分布理论对其Fisher转换值进行检验,而是直接给Q3统计量的绝对值划定一个临界值,根据经验,该临界值定为0。2。如果Q3统计量的绝对值大于该临界值,则可以认为这两个项目之间可能存在相依关系。

三、补偿性检验

根据补偿效应的判定规则,存在补偿效应意味着作答结果是正确有效的,另外还必须使用不同的解题方案。补偿效应具体体现在认知诊断评价理论中,就是在某些题目的作答上,被试可能使用了不同的知识属性(答题策略),却获得了同样正确的作答结果,于是我们认为,这些不同的答题策略包含的知识属性之间存在相互补偿的关系。在解决相同的问题时运用了不同的知识属性,这可能是因为被试掌握了其中一种解题策略包含的知识属性,但未掌握另外一种解题策略包含的知识属性,也可能是因为该被试掌握了所有的知识属性,只是选择了其中一种解题策略。

我们可以根据以上关于补偿效应的概念来划分其检验的方法。

第一种检验方法是专家判断法。首先,邀请三四位领域专家,让他们理解并熟悉测验认知模型(参见后面关于属性定义的相关内容)及其示例题目的命制规则,同时解释补偿效应的概念。其次,专家基于认知模型初步判断属性之间是否存在补偿效应。再次,专家对示例题目的解题策略进行演示,分析是否存在不同的解题策略。最后,结合认知模型和示例题目,判断该领域的知识属性之间是否存在补偿效应。

第二种检验方法是基于被试作答的原始资料分析的方法。为了检验测验认知属性之间是否存在补偿效应,可以将测验认知模型定义时命制的典型事例题目组成试卷,挑选一批来自不同子群体且在该领域水平中等及以上的被试作答试卷。作答过程中要求被试将答题的策略和具体过程详细地写出来。研究者根据对被试的这些原始作答信息的分析,判断每个典型项目是否有不同的解题策略,并据此分析属性之间的补偿效应。

第三种检验方法是基于统计分析的方法。统计分析方法一般基于测试样本数据进行推断。首先,选择一个认知诊断模型,最好选择非补偿模型,因为补偿模型经常是可以解释非补偿数据的,在此以非补偿的DINA模型(关于该模型的具体介绍请参见后面有关章节的内容)为例。根据测试数据,估计被试属性掌握模式和项目参数。然后,将所有被试按属性掌握模式进行分类,同时,将所有题目按测试属性进行分类,即测验Q矩阵。根据测试的属性个数,每次对单个题目进行检验。首先检验测试了单个属性的题目,然后检验测试了更多属性的题目。在对各个题目进行检验时,将在该题目上正确作答的被试分成两类:一类掌握了该题目要求的所有属性;另一类未掌握该题目要求的所有属性。

按照DINA模型的定义,被试未掌握要求的属性却答对题目的情形被认为是猜测的结果,但这种情形也有可能是因为题目属性未定义完备,或存在其他的解题策略。当未掌握要求的所有属性的被试答对比例足够高时,我们应该怀疑题目属性定义可能出现了偏差。出现这类属性定义偏差的情形有三种:第一种是属性定义错误,在作答中的表现是,掌握和未掌握该属性的被试答对的整体比例均较低;第二种情形是定义的属性数目超过了题目应该要求的属性数目,在作答中的表现是,掌握了两个属性和掌握了其中一个必要属性的被试答对比例相近,但只掌握了另外一个非必要属性的被试答对比例较低;第三种情形是有可能存在其他解题的替代方案,即运用其他属性也可以答对,这就是补偿效应,在作答中的表现是,掌握了题目定义属性和未掌握题目定义属性的被试答对比例均较高。

因此,在掌握了题目要求的属性的被试答对比例足够高的前提下,当未掌握题目要求的所有属性的被试答对比例超过了正常猜测的答对比例时,就需要进一步检验该题目是否有替代的解决方案,即这类被试在作答中可能使用了不同的知识属性。不过,通过统计分析的方法找出替代的具体属性或属性组合是一个比较复杂的过程,这时可以结合专家的分析和判断,也可以结合被试作答原始信息资料的方法进行判断。

章节目录