关灯
护眼
字体:

第三节 CAT在心理健康评估中的应用(第1页)

章节目录保存书签

第三节CAT在心理健康评估中的应用

Fliege等人(2005)采用模拟研究的方法,开发了基于IRT的抑郁症的CAT(Depression-CAT,D-CAT)来测量患者的抑郁症状。本节就以其研究为例,通过呈现其具体的研究过程,示例CAT在抑郁症中的应用。以下详细介绍Fliege等人(2005)的研究。[1]

一、研究目的

抑郁症是精神和行为障碍中最普遍的疾病。对于抑郁症的严重程度的评估对疾病分期和结果评估都非常重要。传统评估抑郁症状的方法主要依靠基于CTT编制的量表,如BDI、CES-D、PHQ、HADS、SDS等。这些量表有CTT固有的劣势,一个最主要的问题是想取得高测量精度,就必须使用大量的题目,而测验精度与被试负担之间的平衡难以协调。

已有的基于IRT编制的抑郁测验经研究显示:使用IRT理论可以揭示项目信息,这可以为提高测量工具的性能提供很多有用的信息(Baeretal。,2000;Olseal。,2003);而且,并不是每一个题目都与每个被试都有关系,CAT可以使“静止”的问卷变得因人而异而又具有“适应性”。例如,如果病人报告心情很好,自我感觉良好,那他就不太可能报告会有严重的自杀念头。在这种情况下,自杀的念头这道题目,几乎没有提供什么有用的信息;但是对一些重度抑郁的被试来说,涉及自杀的念头能提供很大的信息。最后,CAT测验已有一些尝试,它运用已答题目的信息,去挑选下一个合适的题目,为每个被试选择最合适的问题,实现了在完整测量结构中、在保证测验准确性的前提下,只需呈现更少的问题,减轻了被试负担。

正是出于这样的目的,Fliege等人希望开发出D-CAT,并在真正临床环境中发挥作用。

二、研究方法与过程

(一)样本

患者样本总体(n=3270)由两个子样本组成(n1=1581,n2=1689),这两个被试子样本接受了不同的测验内容(n1items=88,n2items=86)。其中有30道题目作为锚题来关联这两个题目子样本(nitemsoverall=144)。被试样本中有991名男性(30。3%)、2279名女性(69。7%),平均年龄为42。4岁(SD=14。5,年龄范围为16~87岁)。

(二)D-CAT开发

开发基于IRT的CAT用来诊断抑郁症状,需要以下三个步骤。

1。题库建设

美国精神病学D**-IV中诊断抑郁症的标准,主要包括:①抑郁心境;②愉快感和兴趣的缺失;③精神运动性激越或者迟滞;④食欲体重明显下降或增加;⑤睡眠障碍;⑥疲倦或者缺乏精力;⑦自责或者内疚;⑧注意集中能力减退,或者犹豫不决;⑨反复出现自杀或死的想法。

运用德尔菲法(DelphiMethod)来选择题目。首先,我们汇集了临床诊断中常用的11个有着固定题目数的抑郁问卷(这包括已经通过了心理测量学评估的6个德国本土抑郁量表——ALL、BSF、GBB、GT、LZI和NI90以及5个国际通用量表——CES-D、BDI、SF36、STAI和SESLOT)中的320道作为可用的题目,让患者在计算机上作答了这些问卷中的题目。

因为这些题目来自多个测量工具,一些题目可能并不指示抑郁症状。因此在不告知这是抑郁量表中的题目的情况下,请三位研究小组的成员(两位分别有8年和10年临床经验的心理治疗师,一位有9年研究经验的医师)审查这些问卷中的题目,他们各自独立地评估问卷的各个题目是否指示抑郁症状。三位评估者的内部一致性系数需在可接受的范围内(配对kappa,k1-2=0。80,T=7。43,k1-3=0。83,T=7。71,k2-3=0。88,T=8。16;所有的p值均小于0。001),如果评估者们就某道题目没有达成一致意见,他们将一起讨论,然后再重新评估该题。只有当三位评估者都认为一个题目测查到了抑郁症状,这个题目才会被放置在题库中。最终挑选出了144道题。

2。项目分析和筛选

两批题目子样本分别接受了单维性检验、局部独立性检验、项目特征曲线(ItemRespoemCharacteristicCurve)、项目功能差异(DIF)、测验等值、项目参数。

(1)单维性检验和局部独立性检验。

第一,单维性。尽管题库中题目的单维性并不是IRT-CAT的一个先决条件,但是大部分的IRT应用模型都含有单维性假设。这意味着在项目作答数据中,公共方差可归因为有单一的潜在特质变量。该研究中所采用的GPCM模型也是基于单维性假设的。为考察这组数据的单维性,使用Mplus软件做了验证性因子分析(CFA),并删除了因子载荷小于0。4的题目(Nunnally,1978)。

第二,局部独立性。这是IRT模型所固有的,这意味着,当被试的特质水平不变时,他在任何一道题目上的作答与在其他题目上的作答是独立的。为了检验局部独立性,研究者使用Mplus软件分析了单因子模型的残差相关。尽管局部独立性意味着残差相关为0,一些研究发现IRT模型的参数估计在轻微违反单维性假设时还是相当稳健的(DrasgowF,ParsonsC,1983;ReckaseM,1979)。当一个题目与其他题目残差相关大于0。25,且占比超过题目总数的15%,就删掉这道题。研究者也指出,选择相关系数0。25作为分界值,这个标准多少是有些主观的,毕竟就他们所知还没有一个被证实了的经验标准。正如Embretson和Reise(2000)所说,所有模型的局部独立性是可以与现实近似的,稍微偏离局部独立性假设对模型参数的估计是不受影响的。经CFA检验,剩余的64道题目符合单因素模型。

(2)项目特征曲线(项目反应曲线)。

应用非参数平滑技术,使用TestGraf软件计算出了项目特征曲线,以便题目更好地发挥功能,方便IRT模型分析。每个项目选项特征曲线均与潜在特质相关。

(3)项目功能差异(DIF)。

DIF检验用来识别因为群体的差异所造成的系统误差,如性别、年龄、取样等。使用有序多分类LogistiousLressionModel)来实现DIF分析,其中题目的作答作为因变量,群组成员作为自变量。当控制住了量表分数,不同的群体成员在项目得分上有直接作用,则称为良性DIF,当量表分数与群体发生交互作用时,这称为不一致的DIF。鉴于本研究中的样本量较大,微弱DIF效应可能会统计显著,因此使用Nagelkerke(1991)的决定系数R2作为指标来评估DIF。决定系数R2被用来解释回归模型中变异的比率。当群体效应或群体与量表的交互效应使R2增加了0。03以上,则认为存在DIF。研究者解释道,应用这么一个相对严格的临界值是为了保证所有的项目对于不同年龄或性别的群体都是适用的。

(4)测验等值。

使用锚测验设计的方法进行等值处理。

(5)项目参数。

使用GPCM模型估计项目参数。GPCM是一个双参模型,允许项目之间有不同的区分度,双参模型比条件苛刻的单参数模型可能更拟合数据特征。区分度允许我们为每一道题估计项目信息函数。低区分度的试题被应用的可能性很低,因此,从题库中删除低区分度a<0。7的题目。先前的模拟研究发现,这类低区分度的项目在题库中被选中的概率不到0。05%,所以将这些项目舍去,测试也不受任何影响。

3。评估算法和测验特性

(1)评估算法。

CAT题库中最终包含62个题目,CAT开始时选择的第一个题目是根据特质分数θ为0时(中间值),信息量最大的题目。在研究中,这个题目是:“DuriweekIfeltdepressed(过去的一周,我感到抑郁)”。程序运用期望后验算法EAP根据被试在此题上的作答估计其潜在特质分数。

章节目录