第二节 单维二级评分模型下的在线标定(第3页)
适合在线标定的方式是上述第二种情境的第二种方法:每一次估计新题参数,将利用完成这一题的所有考生的作答数据,其中包含了他们各自完成的正式CAT的题目数据,用于对新题参数量尺的锚定。Kim(2006)讨论了几种在传统试测模式下使用的固定参数标定法(FixedParameterCalibration),这与下文要介绍的几种在线标定文献里参数估计法主旨相同,不同点在于在线标定的作答数据更分散,计算流程更机动灵活。
3。计算流程
在考试进行过程中,不需要在考生完成试测题之后马上进行参数标定,因为其后呈现的正式CAT题目的作答数据,仍可以被包含在参数标定的计算之中,提高估计的精度。所以正确的做法是在每位考生完成整个考试之后,对考试中嵌入的所有试测题进行标定。
另一种可行的计算流程是,在一道试测题积累若干个(如10个)新的作答数据之后再进行标定。也就是说,不需要在每位考生完成考试之后都实施参数标定,而是如果这位考生完成的试测题中,有一道题刚好积累了10个新的作答数据,则只对该题进行参数标定;而其他试测题只记录作答数据,不标定,等到有其他考生作答了这些题,达到10个新数据时,再集合之前记录的所有相关数据,来标定那些题。这个方法可以节省计算机的计算量。
下文将介绍已有文献中的几种适用于在线标定的参数估计方法。
(二)Stog-A
Stog-A(Stog,1988)是最早被提出的针对在线标定情境的参数估计方法。在这一设计下,当一位考生完成了整个考试后,先利用正式CAT题目来估计考生的能力水平值。而后,把估计出的考生能力值当作已知定量,应用条件极大似然估计法(umLikelihoodEstimation)来估计参数值。在具体实现条件极大似然估计时,目标是找到能够最大化对数条件似然值的题目参数,一般需要采用计算机循环近似的算法。常用的算法是将二分法(Bise)和牛顿-拉夫逊(on-Raphson)循环结合使用。
这个方法是思路上最直接,计算上最容易的。但Stog(1988)的研究中发现,由于这一方法使用的是考生能力估计值,而不是真实能力值,产生的试测题参数值可能存在量尺漂移(ScaleDrift)。
(三)OEM
OEM方法由Wainer和Mislevy(1990)提出,全称为单循环EM方法(Oion-maximizatiohod)。它是由传统参数估计中最受认可、最常用的边际极大似然估计法(MarginalMaximumLikelihood)衍生出来的。
边际极大似然估计法的理念是当考生能力值未知,无法运用条件极大似然估计法时,基于从作答数据中算出的后验考生能力值分布,可以算出题目参数的边际似然值表达式,而后以最大化这一边际似然值为目标,算出题目参数值。
在Baker和Kim(2004)的详解中,这一算法的具体实现,利用了统计上EM算法的架构。EM算法包含了交替循环的E步骤(Expeaximization):E步骤先根据当前题目参数临时值,算出所有考生能力的后验分布,再利用这些后验分布来算出题目参数的对数似然值表达式;M步骤以最大化前述表达式为目标,算出题目参数估计值。下一循环的E步骤则利用了新的题目参数估计值,更新完善考生能力的后验分布,算出新的对数似然值表达式,如此往复,不断更新完善题目参数估计值,直到算法收敛(如参数估计值在循环之间不再变动)。这种方法既无须知道考生能力值,又从作答数据中获取了考生能力值的信息,帮助题目参数的估计,是在统计上相对完善的设计,因而也是最受认可的参数估计法。
在在线标定的情境下,OEM的方法只包含了一个循环。在E步骤中,考生的后验能力分布是从所有该考生完成的正式CAT题目中获得的;而后的M步骤,利用前述考生能力后验分布算出的对数似然值,以最大化该值为目标,找到试测题参数估计值。
这一方法的理念是,在传统参数标定中,所有题目的参数都是未知的,因而考生能力后验分布的获取需要通过EM循环不断完善;然而在在线标定的情境下,正式CAT题目的参数值是已知的,理论上可以利用那些正式题目,仅一步就可以直接获取精准的考生能力后验分布,从而避免了反复循环,节省了计算时间。
(四)MEM
MEM方法由Ban等人(2001)提出,全称为多循环EM方法(Multiple-cycleExpeizatiohod)。它包含了正常的EM循环,直到参数收敛终止。在第一个E步骤中,考生的后验能力分布只从该考生完成的正式CAT题目中获得;而在之后所有的E步骤中,考生的后验能力分布的获得,既利用了所有该考生完成的正式CAT题目,也利用了试测题作答数据和其新估计的参数值。
(五)贝叶斯估计法
在上述三种估计法中,都可以在似然值表达式中加入贝叶斯先验值,形成对贝叶斯后验似然值的最大化,具体算法见Baker,Kim(2004)及Zheng(2014)。贝叶斯成分的加入可以使参数估计中牛顿-拉夫逊(on-Raphson)循环更加稳定。尤其是对于3PL模型的题目,或样本量小的情况,普通的牛顿-拉夫逊循环有可能不收敛,而加入贝叶斯成分可以有效缓解这一问题。而在线标定的情境正好符合样本量小的情况,因为在试测题作答样本积累的过程中,题目参数不断被更新,而在样本积累的初期,样本量自然是小的。
(六)其他方法及方法间的比较
针对Stog-A的量尺漂移问题,Stog(1988)又提出了Stog-B的方法。这一设计要求在考试中安排锚题(正式CAT题目,要求所有人作答)。在对试测题进行参数标定之后,利用锚题再完成一轮等值。这一方法并不太实际,因为它显著加长了考试长度,同时纠正效果也不一定显著,因为等值过程也引入了相应的不可忽略的误差。
Ban等人(2001)还讨论了一种利用在BILOG程序里加入强先验分布来锚定试测题参数的方法。另外,Segall(2003)提出了如何在在线标定情况下利用MonteCarlo)算法估计参数。前者过于依赖特定程序,而后者MCMC的计算又用时极长,两者都不太实际。
Ban等人(2001)通过模拟研究对其他上述方法在3PL模型下进行了比较,得出的结论是MEM估计结果最精确,OEM第二,Stog-A最不准。需要注意的是,在其文章中,OEM和MEM的方法中均提到了加入贝叶斯先验值,而在Stog-A中并未提到。
Zheng(2014)对于Sto以及这三种方法各加入贝叶斯先验值,共六种方法,在1PL,2PL,3PL模型下进行了比较。结论是:在三种模型下,加入贝叶斯先验值的三种方法都好于未加入贝叶斯先验值的三种方法;这个差别在3PL模型下最明显,远大于三种方法本身之间的差异;在2PL模型下,这个差别的程度有所缩减;而在1PL模型下,这个差别的程度更加缩小。而在未加入贝叶斯先验值的三种方法之间,在三种模型的b参数估计结果中都观测到了MEM好于OEM,且好于Stog-A的模式。这个模式在其他参数中并未出现。Zheng(2014)对于各算法的具体步骤和表达式进行了详细描述。
三、试测题嵌入位置
试测题嵌入位置理论上会影响参数标定的精准度,因为随着嵌入位置从考试刚开始的题目位置逐渐向考试尾端移动,考生能力水平估计值越来越精准(前提是模型拟合较好),而实时最优选题算法中正用到了这个考生能力水平估计值。这个值中包含的测量误差越小,最优选题的计算越接近于真正的最优,理论上说估计效率也越高。当然我们用随机选题法选取试测题时,试测嵌入位置不影响参数标定的结果,因为随机选题法并没有利用考生能力水平估计值。
我们也可以利用这个理论来检验不同的试测题选题法,如果某最优选题法不符合这一规律,有可能说明这个选题法的机制里有一些不合理的地方。例如,Zheng(2014)的模拟研究中发现了在2PL和3PL模型下,以考生能力值为中心的选题法呈现出从考试前部的嵌入位置到考试中部,再到考试后部,试测题参数估计效率逐渐降低的趋势。而这也印证了前文中所分析的,以考生能力值为中心的选题法并不是为优化题目参数估计效率而设计的,它的机制是不合理的。
在理想情况下,在使用最优选题法时,试测题应被嵌入在考试最后的位置,以获得最好的参数标定效率。但是,如果这个信息被考生得知,并且他们也知道试测题不计入总分中,那么他们的答题动机将显著减小,从而影响了试测的效度。因此,更加实际的方法是将试测题随机嵌入考试中,可以是随机嵌入全卷,或者考试的某一部分。
已有文献中的研究尝试了不同的嵌入设计。例如,随机嵌入全卷(etal。,2012),固定在全长52题的考试中的第22题和第28题(Kingsbury,2009),随机嵌入全长28题的考试中的最后6题中的3题(vanderLinden&Ren,2015)。Kingsbury(2009)建议试测题不应连续呈现。Zheng(2014)在模拟研究中比较了随机嵌入全卷前三分之一、中三分之一及后三分之一的设计,结果发现这一因素与试测题选题法有明显的交互作用,即在不同的试测题选题法下,各嵌入位置呈现的模式很不一样。
四、试测终止规则
试测终止规则决定了在什么情况下结束一道试测题的试测。试测结束后,试题将面临审核,审核通过后即可进入正式题库,被用在正式考试中。当没有试测终止规则时,随着正式CAT考试的进行,试测题库中所有题目都可以任意被选择。在考试窗口的任一时间,试测题库中的各题将拥有各异的参数估计精准度。
最简单的试测终止规则是基于样本量的规则(Ali&g,2014;Kingsbury,2009;Zhu,2006):当一道测试题的样本量达到某一指定量时,即结束该题的试测。
然而,在同一样本量下,不同试题的参数估计的误差可以差异很大,因此试测终止规则也可以基于参数估计的标准误值:当一道试测题的参数估计标准误低于某一指定阈限时,即结束该题的试测。这一方法理论上比基于样本量的终止规则效率更高。在这种设计下,建议同时也叠加一个最大样本量规则,以避免某些试题长期不终止试测。
Kingsbury(2009)还提出另一种可能的终止规则:当一道试测题的参数估计值在前后两次估计之间不再变动时,终止该题的试测。终止规则是未来在线标定研究中很有价值的研究方向。