第一节 信息信息熵信息量(第2页)
KL散度有几个重要的性质:①KL散度是非对称的,这意味着DKL(P‖Q)≠DKL(Q‖P);②非负性,即DKL(P‖Q)≥0;③即使对于连续变量,KL散度仍是良定义的(函数关系无歧义),参数转换也不会改变其性质;④对于独立分布,KL散度是可累加的。
四、Fisher信息
假设一批样本数据来自某一个分布,未知参数θ定义了该分布,那么,我们就可以利用样本数据中蕴含的信息来估计该未知参数。这时候,一个自然的问题就是:对于估计这个未知参数,这批样本数据能够提供多少信息呢?Fisher信息就是用于衡量这样的“信息”关系。
我们以f(x;θ)表示以θ取值为条件的x的概率密度函数,这也就是关于θ的似然函数,也就是当给定θ的某个取值时,获得观察数据x的概率。如果随着变量θ取值的变化,f函数分布的形态非常高耸,那么,我们就能够很快、很容易地发现和确认函数极值及其对应的未知参数的真实估计值,这也说明这批数据能够给未知参数提供较大的信息量。如果似然函数f的分布形态非常扁平,这时,为了获得关于未知参数θ的稳定的估计值(小的估计误差,大的信息量),我们就必须增加大量的样本数据。由此可以发现,未知参数θ的估计似乎与某种方差量有关。
Fisher信息一般用I(θ)表示,Fisher信息就定义为Score函数的二阶矩,即I(θ)=E[S(x;θ)2],于是可知,Score函数的绝对值越大,Fisher信息越大。
在一定的正则条件下,Score函数一阶矩(期望)会等于0,即E[S(x;θ)2]=0,于是10-9式就自然成立:
根据上式,Fisher信息也可以定义为Score函数的方差。同时还知道其取值范围为0≤I(θ)<∞。
如果对数似然函数logf(x;θ)二阶可导,在一定的正则条件下,Fisher信息还可以写为:
于是,Fisher信息可以被解释为对数似然函数曲线的曲率。如果通过对数似然函数曲线来进行直观解释,在极大似然估计值附近,大的Fisher信息意味着函数极值附近的曲线形状显得比较高而尖,而小的Fisher信息意味着极值附近的曲线形状比较扁平,也就是说,会有更多未知参数估计值的似然函数值与极值非常接近。
如果数据是由n个参数来定义的,那么,未知参数θ就是一个n×1的向量,即θ=[θ1,θ2,…,θn]T,这时的Fisher信息就是n×n阶的Fisher信息矩阵(FIM),矩阵中元素为:
FIM为n×n阶的半正定对称矩阵。在一定的正则条件下,FIM元素也可以表示如下:
如果FIM矩阵中的第i行第j列元素为0,那么,我们就认为参数θi和参数θj相互独立,是正交的。在这种情形下,他们的极大似然估计值就是相互独立的,我们就可以对这两类参数分开进行独立估计,这可以大大简化参数估计的复杂度。
柏努利(Bernoulli)试验是只有两种可能结果的试验。记X为一个柏努利试验,其中一种结果发生的概率记为θ,X试验的Fisher信息计算方式为:
由于Fisher信息是可加的,因此,n次独立的柏努利试验的Fisher信息表达如下:
五、Fisher信息与相对熵KL散度之间的关系
设有概率分布族f(x;θ),θ为定义分布的参数。那么,属于同一分布族的两个分布之间的KL散度可以表示为:
如果θ已知,那么,当θ′=θ时,上面定义的KL散度将达到最小的0(KL散度是非负的)。
而Fisher信息矩阵可以表示如下:
Fisher信息表示了KL散度的曲率。
六、香农熵与相对熵KL散度之间的关系
与前文的表示方法一致,香农熵与KL散度的关系可以表示如下:
式子右边表示为了从N个等概率的均匀分布PU(X)中而不是P(X)中识别X需要增加的信息量。P(X)表示X的真实分布。
七、互信息与相对熵KL散度之间的关系
与前文的表示方法一致,互信息与KL散度的关系可以表示如下:
式子右边表示两个边际概率分布与其联合概率分布之间的散度。
八、条件熵与相对熵KL散度之间的关系
与前文的表示方法一致,条件熵与KL散度的关系可以表示如下:
式子右边表示为了从N个等概率的均匀分布PU(X)中而不是P(X|Y)中识别X需要增加的信息量。P(X|Y)表示X的真实分布。