第一节 几个基础概念(第1页)
第一节几个基础概念
一、极大似然估计
关于极大似然估计,我们可以先看一个例子:
某位同学与一位猎人一起外出打猎时,一只野兔从前方窜过。只听一声枪响,野兔应声倒下,如果让你推测,这一发命中的子弹是谁打的,你就会想,只发一枪便打中,由于猎人命中的概率一般大于这位同学命中的概率,看来这一枪是猎人打的。
在上述例子中,关于结果所做的推断(执果寻因)就体现了极大似然估计的基本思想。
我们以DINA模型为例,通过估计其项目参数来讲解极大似然估计的原理和过程。
若我们已获得所有被试在测验第i题上的作答得分向量(x1,x2,x3,…,xn),以及所有被试的属性掌握模式αj(j=1,2,…,n),该题的属性向量为qi。我们的目标是估计未知的项目参数βiη。
因此,求项目参数βiη的估计值的问题,就变成了求似然函数L(βiη)的最大值的问题。而求函数极大值的问题,只要导函数存在,一般就会转化为求函数对未知参数的一阶导并令其为0的方程根的问题。所以,求上面这个似然函数极值的问题可通过解下面这个方程:
来解决。解这个方程得到的βiη值,就是项目参数的合理估计值。
似然函数式(7-2)为概率的连乘积,如果对该似然函数式取对数,则可以转换为概率连加和的形式,这将大大简化计算过程。而且,因为lnL是L的增函数,所以,lnL与L会在相同位置取得最大值。我们称l(βiη)=lnL(βiη)为对数似然函数(log-likelihoodfun)。因此,我们常将方程(7-3)写成:
方程(7-4)称为对数似然方程。解方程(7-4)或(7-3)得到的值,就是项目参数的极大似然估计值。
总结求极大似然估计值的一般步骤如下:
①导出样本结果的联合概率函数(或联合密度);
②把样本联合概率函数(或联合密度)中因变量看作已知常数,而把未知参数看作自变量,得到似然函数;
③求似然函数的极大值点(常转化为求对数似然函数的极大值点);
④在极大值点的表达式中,将样本值代入就得到参数的极大似然估计值。
二、牛顿-拉夫逊迭代
解似然方程的过程经常会用到迭代算法。运用最多的迭代算法就是牛顿-拉夫逊迭代方法。牛顿-拉夫逊迭代方法是在解牛顿迭代式基础上进行的。设r是f(x)=0的真实根,但这个根有时候很难或无法通过直接解方程的方法求出来,于是我们会采用迭代算法,以得到r的一个近似估计值。迭代的过程如下:首先,选取x0作为r的初始近似值;然后,过点[x0,f(x0)]做曲线y=f(x)的切线L,可以知道L的方程为y=f(x0)+f′(x0)(x-x0),于是,可以求出切线L与轴交点的横坐标x1=x0-f(x0)f′(x0),称x1为r的一次迭代近似值。接着,过点[x1,f(x1)]再次做曲线y=f(x)的切线,并求该切线与x轴交点的横坐标x2=x1-f(x1)f′(x1),称x2为r的二次迭代近似值。重复以上过程,就可以得到r的一个近似值序列(x1,x2,…,xn,xn+1),其中,
称为r的第n+1次迭代近似值,式(7-5)亦称为牛顿迭代式,而式(7-6),
也就成为迭代过程中估计值的校正公式。当然,迭代过程不可能无休止地进行下去,必须设定一个中止规则。常用的中止规则就是,当相邻的两个迭代近似值之间的差异小于某个足够小的预先设定值,如0。01时,中止迭代过程,也就是迭代校正公式中ε<0。01,以最新的迭代近似值作为方程f(x)=0的根r的一个近似估计值。我们可以将以上迭代算法的过程通过几何图形的形式加以直观解释,如图7-1所示。
图7-1牛顿迭代过程图
求函数极值问题经常会转化为求函数的一阶导问题。类似地,在求使似然函数值达到极值时对应的参数值时,也经常把该问题转换为求似然函数对该未知参数的一阶导并令函数值为0时对应的方程的根,而求这个根的过程就经常使用牛顿迭代算法。当然,如果可以直接解出一阶导方程的根,那就不需要经历迭代过程。
三、贝叶斯估计、先验分布、后验分布
学习贝叶斯估计首先需要了解先验分布和后验分布的概念。
贝叶斯估计是基于贝叶斯统计思想的估计方法。先验分布是贝叶斯统计的基础概念。贝叶斯统计理论认为,关于总体参数的任何统计推断,除了使用试验样本所提供的信息之外,还必须规定一个关于该参数的先验分布,它是在进行总体参数统计推断时不可或缺的信息。先验分布是在获得试验样本数据信息之前就已经掌握了的关于对总体参数分布的认识。
所谓参数的后验分布,是根据试验样本数据信息和未知参数的先验分布信息,用概率论中的贝叶斯定理求条件概率分布,求出在已有试验样本数据信息的情况下,关于未知参数的条件分布。由于关于未知参数的条件分布是在已经获得试验样本数据信息之后才求得的,因此称为未知参数的后验分布。贝叶斯统计推断的基础就是,关于未知参数的任何统计推断都必须且只能根据该参数的后验分布进行,而不能只涉及其样本信息。贝叶斯统计模型如下:
式(7-7)中,P(A)表示未知事件A的先验分布信息,P(B)表示试验样本B的分布信息,P(B|A)表示在事件A发生的条件下,试验样本B的发生概率。P(A|B)表示在获得了试验样本数据信息的条件下,可以对与该结果相关联的未知事件A发生的概率重新进行调整估计。
贝叶斯统计模型综合了先验分布信息和通过试验获得的实际样本数据信息,从而获得后验分布信息,并以后验概率P(A|B)的形式体现出来。因此,贝叶斯统计模型反映了在获得了实际试验数据信息的条件下,先验分布向后验分布的转化过程。试验样本信息在这里的唯一作用就是把对未知参数的认识由仅有的先验分布向后验分布转化。
根据以上介绍可以了解到,关于参数的认识,传统统计推断理论是基于大样本理论的,认为要估计的参数是一个未知但却是确定的唯一值,并不具有随机性,估计的任务就是把这个值找出来。而基于贝叶斯理论的估计方法把要估计的未知参数看作一个随机变量,这个变量可能取各种不同的值,同时,这个随机变量有一个伴随的已知的先验分布信息,也就是关于该随机变量取各种值的概率信息。贝叶斯统计推断方法关于参数的估计完全是基于后验分布的,而后验分布中的关键因素就是试验样本数据信息和参数的先验分布信息。在实际进行参数估计时,未知参数的试验样本信息一般是已经准备好的,是确定已知的,而对未知参数的先验分布信息的选择就需要深入思考,谨慎对待。只有关于未知参数的正确的先验分布信息,才能保证构造出正确的后验分布,而正确的后验分布才能保证得出正确的参数估计结果。比如,关于被试能力水平参数的先验分布一般认为是正态分布,如果在构造后验分布时选择偏态分布,那么可能会导致贝叶斯方法做出错误的统计推断。
贝叶斯估计相对于经典学派的估计方法有什么优势呢?经典统计学派认为概率是事件在大量独立重复试验基础上所发生的频率的稳定值。贝叶斯学派当然也承认这一观点,但他们更加强调主体主观认知的作用。因此,在拥有大规模试验样本数据的情况下,传统统计估计方法的结果可以得到比较好的保障。然而,在实践当中,我们经常无法保证进行大规模的重复试验能获得大规模的试验样本数据,经常的情况是我们只能拥有小样本观察数据。在小样本的情况下,传统统计估计方法就无法保障得到的结果是准确的,因此需要探索一种更加稳定的估计方法。结合人们过去对未知参数的经验,根据人们过去积累的认识给出关于未知参数的较稳定合理的解释,是一种比较好的做法。其实,在日常判断决策中,人们也经常是在面对当前情形时,还会根据以往的经验认识做出决定。
总之,贝叶斯估计是根据某个随机变量的样本观测信息,并结合其先验信息,通过后验分布估计其可能取值的过程。