第二节 项目参数的条件估计(第2页)
鲍克和列波曼首次使用基于边际分布的极大似然估计方法,来估计双参数正态肩型模型的项目参数。他们假设样本被试来自服从正态分布的总体,不过,他们在应用中只分析了5个项目。鲍克和列波曼指出,参数的边际极大似然估计方法本身虽然有很大的优势,但他们所提出的参数的极大似然估计实现方案,却很难在实际项目分析工作中得到广泛的应用。按照他们所提供的参数估计解决方案,在每次测验分析中,题目数量不能超过10道或12道,因为在鲍克和列波曼的项目参数估计迭代方案中,需要构建一个3M×3M(M为测验题目量)的信息矩阵(二阶导矩阵),并对它求逆,而矩阵中的每个元素又包含2M(所有可能的作答模式数)次累加和计算过程。因此,题目量过多将造成矩阵过大、矩阵运算困难的问题。但是,最多12道题的题目量在心理与教育的实际测验中是很少见的。所以他们认为提出边际极大似然估计方法,主要是为了进行理论研究探索,以及在同等条件下与其他方法进行比较。不过后来,对该方法进行了改进,使其能够灵活地适应于各种实际数据分析情境。
鲍克和阿特金对鲍克和列波曼方法的改进主要体现在三个方面。首先,假设被试之间、题目之间以及被试与题目之间均服从局部和相互独立原则,这样就解决了参数估计中矩阵过大的问题,因为在局部独立原则成立条件下,可以逐个项目地进行参数估计,而每个项目的参数估计过程涉及的矩阵运算即使在IRT三参数模型下也只有3×3个元素。这样,这种方法就可以运用于大批量项目分析的情形了。
鲍克和阿特金方案的第二个改进,主要就是基于他们关于被试、题目之间独立性的假设基础上,针对似然函数式子本身的具体处理技术。鲍克和列波曼所建立的似然函数关于项目参数的一阶导函数及其方程式子形式统一如下式所示:
式子对积分项用高斯-厄米特数值积分进行了近似处理。式子中,ξi代表项目参数,可以用项目反应模型中涉及的不同项目参数分别代替;Φi(xk)为项目反应函数,在这里专门指的是IRT正态肩型曲线函数;zi(xk)=ai(xk-bi)为正态肩型曲线函数式中的一项(这一项中的ai、bi分别表示IRT模型项目区分度参数和难度参数),xk为选择的数值积分积点,A(xk)为相应的积点系数或积点权重,式子中,
Ll(xk)为当能力取值为xk时,作答模式l的联合概率。
鲍克和阿特金在对以上式子进行处理时,首先假设所有的被试根据作答反应模式被合理地分成了若干组,各组内被试完全同质,各组之间相互独立,且各组的能力水平记为xk。在这个假设基础上,不同项目的难度和区分度参数就可以分开来独立估计。于是,进一步可以得到对数似然函数关于项目难度参数和区分度参数的一阶导函数式子,令其等于0所得方程分别如下所示:
参数的信息矩阵为:
其中,
对比式(7-18)、式(7-19)与式(7-16),同时把式(7-16)的A(xk)项乘入式子的分子项,于是便得到以下两个相互对应的式子:
鲍克和阿特金方案的第三个方面的改进,是在以上式子的基础上,提出了具体实现项目参数估计的一个新的算法,即EM算法。依据这个算法,每个项目参数一次小循环的估计过程包括了以下两个步骤。
M步:也就是似然函数极大化过程。利用E步算出的值,根据上面提供的一阶导式子和信息矩阵,用牛顿-拉夫逊迭代算法,估计项目参数。当然,如果一阶导方程可以直接解出未知参数的值,那就不需要经历麻烦的迭代步骤。
当然,在每个EM步外面还有一个大循环过程,就是要使两次相邻迭代的所有项目参数所计算的似然函数值之间差异足够小。
从上面可以看出,鲍克和阿特金关于项目参数估计的EM算法,是在两个不同假设条件下的一阶导式子之间的对应关系基础上提出来的。另外,在处理指数概率模型族的参数的极大似然估计过程中,当参数的估计出现缺失信息时,有人提出了不完整数据处理的EM算法。鲍克和阿特金基于这个缺失数据处理原理的角度,也提出了与我们上面讲到的相同的EM参数估计步骤。
在认知诊断评价理论中,被试在测验项目上的作答被分成不同的作答反应模式,每种作答反应模式对应一种属性掌握模式,所有相同作答反应模式的被试的属性掌握模式也是相同的。同时假定被试之间的作答是局部独立的,项目之间的作答也是局部独立的。
三、边际极大似然估计示例
接下来,结合认知诊断评价理论中的DINA模型,并依据了德拉托尔(delaTorre,2009)的推导结果,解释边际极大似然估计及其EM算法在DINA模型项目参数估计中的应用。
DINA模型是一个比较节俭的模型,模型中的被试参数为属性掌握模式,项目参数包括猜测参数和失误参数。
首先,将DINA模型的项目反应函数重新表示为:
然后,建立作答矩阵的边际似然函数:
式子中,L(uj)为被试j作答反应模式的边际似然函数,g(αv)为属性掌握模式αv的先验分布。由于αv是离散变量,因此边际概率积分运算变为累加运算。将上式转化为对数似然函数形式:
接下来就是,找到使对数似然函数达到极大值点的项目参数估计值βiη。于是求对数似然函数对未知项目参数的一阶导函数:
对于DINA模型来说,虽然每个被试的属性掌握模式可能不同,但在某个具体项目上,所有被试的属性掌握模式可以分为两种:掌握了项目要求的所有属性(记为η=1);未掌握项目要求的所有属性(记为η=0)。相应地,项目反应函数的取值情形也只有两种:当被试掌握了项目要求的所有属性时,Pi(αv)=1-si;当被试未掌握项目要求的所有属性时,Pi(αv)=gi。因此,式(7-27)可以进一步表示为:
当式(7-28)一阶导函数中是对项目参数g求导时,式子右边第二项就等于0。于是,求极大化似然函数logL(U)的项目参数gi值,就是计算出让如下一阶导方程式子成立的gi估计值:
经化简移项后,可得:
同样地,当式(7-28)一阶导函数中是对项目参数s求导时,式子右边第一项就等于0。于是,求极大化似然函数logL(U)的项目参数si值,就是计算出让如下一阶导方程式子成立的si估计值。
经化简移项后,可得:
边际极大似然估计的关键是根据作答反应模式构建边际似然函数。而EM算法的关键是构建两个人工参数R和N。