第三节 CAT在心理健康评估中的应用(第3页)
基于IRT的θ值与题库中所有题目的总分高度相关(积差相关值r=0。95),而且令人满意的是与一些已编制的抑郁测量工具相关度也很高(BDI:R=0。79;CES-D:R=0。83)。为了与定长的CAT进行比较,Fliege等人也考查了基于IRT的θ值与CES-D8道题目版本的总分之间的联系(R=0。76)。图10-3-3的散点图的形状较平缓呈S形,这说明了在潜在特质连续体的高低两端,CAT的区分能力比定长的量表好一些。
表10-3-3最终D-CAT所挑选出来的64道题目(包括锚题)的项目参数
续表1
续表2
图10-3-3模拟D-CAT得分的散点图
四、讨论
最后,研究者回顾了开发D-CAT的整个流程。目前对于基于IRT测验的开发在每一步中哪些可用的方法是最合适的,并没有一个统一的意见。研究者在本研究中所选择的方法都是基于最终CAT得以实际应用的角度来考虑的。
许多科学家质疑健康统计数据是否真的适用于IRT模型,Hambleton等人(1991)提出了对于基本模型假设的系统的组合检验。例如,单维性;模型固有的特性;依靠这个模型可能得到的预测结果。他们一共提出了22种不同的方法,本研究用到了其中的6种。
模拟研究结果显示,完整题库中64道题目得分与CAT中平均6道题目的得分几乎没有什么大的差异。节省了相当大部分的题目并且没有与之相对应的题目信息的损失,这与先前的研究是一致的。表示CAT得分与固定长度的抑郁量表之间相关的散点图呈平缓的S形曲线,说明了CAT在潜在特质低分和高分的两端有着更高的区分度。
我们CAT的测验信息曲线显示了信息量在潜在特质的最末端信息量会下降。然而,较之传统测量工具的优势是可以得到每个患者的测量精度,而且可以记录下潜在特质。结果表明,测量潜在特质值在最末端的被试需要数量更多的题目。然而,所需题目的平均数也并没有超过抑郁标准问卷,即使是对于Theta值在-2以下或者2以上的被试。
尽管本研究证明了基于IRT编制的测验优于基于CTT的测验,这里还有些待解决的问题。比如,我们不知道是否会有题目顺序效应;我们还不知道一个测验中这种变化的题目作答选项是否会影响到作答行为,这样可以防止自动作答模式,但是是否会耗费被试更多的精力?另外一个更实际的问题是关于CAT的实现,如技术要求、被试的接受度等,都是有待考证的。
总体上来说,Fliege等人坚信,这种与患者相关数据的研究必然会受益于已经测验出的IRT-CAT的技术优势,并且在文章中也提到,截至该研究的论文发表时,本研究中所开发出来的D-CAT已经惯常地应用在研究者的所在部门。感兴趣的读者还可以详见Fliege等人(2005)的原文。
五、展望
CAT是一种全新的测验形式,采取“因人施测”“量体裁衣”的自适应测量思想,为每个被试个体选择一份最适合他她的测验,即为每个被试个体选择一份具有最小测量误差(最大测量信度)的测量工具,从而真正实现自适应的测量方式;与传统纸笔测验相比,CAT不仅可以达到更高的测量精度,还可以减少测验长度,减轻被试测试负担等优势;当前关于计算机化自适应测验的研究已受到国内外研究者和应用者的广泛关注。
计算机化自适应测验目前已引起国内外学者和应用者的广泛关注,对于计算机化自适应测验的研究与应用也如火如荼,涉及的领域包括题库建设、选题策略、参数估计、曝光控制、终止策略等。未来CAT在以下方面有待进一步完善:
(一)CAT的题库建设新技术研究
题库建设与开发需要大量的人、财、物投入,且非常耗时,这也是导致目前CAT使用不是十分广泛的重要原因之一。项目自动生成(AutomatedItemGeion,AIG)技术的出现有望改善这一状况,它强调题库试题由计算机自动即时生成(题库中只有组成试题的基本元素,试题均是在测验过程中由计算机根据这些基本元素即时自动生成),它不仅可以节省传统题库开发的人、财、物投入,还可以大大改善CAT题库的安全性。
(二)CAT项目曝光率与能力估计精度兼顾的选题策略研究
题库项目曝光率与被试能力估计精度对当前CAT选题策略是一对矛盾体,即若要保证有较好的能力估计精度,则会牺牲项目曝光率;若要保证有较均匀的项目曝光率,则会牺牲能力估计精度。因此,未来需要进一步探讨两者兼顾的新选题策略。
(三)多种CAT测量形式的优势互补
本文中我们提到多种形式的CAT,如多维CAT(MCAT)、多阶段CAT(MultistageCAT)、双因子CAT(BCAT)、可修改答案的CAT(RCAT)、认知诊断CAT(CD-CAT)等,这些不同形式的CAT适用于不同的测量情境,未来研究可以考虑这些不同形式CAT的统一与综合。
(四)CAT的效度研究
效度研究一向是测验理论非常关心的问题,而CAT由于需大量人、财、物的投入,这就使其效度研究显得更为迫切。
(五)CD-CAT的研究与开发
认知诊断(itiveDiagnosis)有助人们更好地了解个体内部心理活动规律及加工机制,实现对个体认知发展实况(含优点与缺陷)的诊断评估,以促进个体全面发展;它对于教学中的形成性评估特别有价值,对促进教育发展有举足轻重的作用。随着测量技术的不断发展,研究者们目前已初步成功将认知诊断技术与CAT结合起来,充分发挥认知诊断与CAT两者的优势,从而产生了一种全新的测量模式——认知诊断计算机化自适应测验(CD-CAT)。CD-CAT是将认知诊断基本理论、方法与计算机化自适应测验结合起来的产物,由计算机(或I)智能化且高效、快速和准确地实现对被试的认知诊断(还可实现在线学习、诊断、反馈及辅助教学以及E-learning等),从而有利于认知诊断更好地服务实践。CD-CAT因充分结合了认知诊断和计算化自适应测验的双重优点而深受国内外研究者推崇,它对于自适应学习具有重要价值。
任重而道远,CAT的进一步发展还需要更多研究者和应用者付出更多的智慧与汗水。本书也希望能起抛砖引玉的作用,让更多研究者加入进来,从而促进CAT的进一步发展并为我国实践服务。让我们展开双臂,拥抱未来!
思考题:
1。开发一个CAT系统有哪些具体过程任务?
2。如何进行CAT的题库建设?
3。如何检验一个CAT系统的信度与效度?
[1]FliegeH,BeckerJ,WalterOB,BjornerJB,KlappBF,etal。Developmentofaputer-adaptivetestfordepression(D-CAT)。QualLifeRes,2005,14(10):2277-2291。