03
本篇是学习信息论的入门笔记,希望能与各位分享进步!这是第六章:微分熵~
文章目录
6. 微分熵6.1 定义6.2 连续随机变量的AEP6.3 微分熵与离散的关系6.4 联合微分熵与条件微分熵6.5 相对熵与互信息6.6 微分熵、相对熵以及互信息的性质6. 微分熵
6.1 定义
定义6.1.1设XXX是一个随机变量,其累计分布函数为F(x)=Pr(X⩽x)F(x)=Pr(X\leqslant x)F(x)=Pr(X⩽x) 。如果F(x)F(x)F(x)连续,则称该随机变量连续。另外,使f(x)>0f(x)>0f(x)>0 的所有xxx构成的集合称为XXX的支撑集。
定义6.1.2(微分熵)一个以f(x)f(x)f(x)为密度函数的连续型随机变量XXX的微分熵h(X)h(X)h(X)定义为
h(X)=−∫Sf(x)logf(x)dxh(X) = - \int_S f(x)\log f(x)dx h(X)=−∫Sf(x)logf(x)dx
其中SSS是这个随机变量的支撑集。离散的熵
HΔx(X)=−∑i=−∞∞f(xiΔx)log(f(xi)Δx)H_{\Delta x}(X) = -\sum_{i=-\infty}^\infty f(x_i\Delta x)\log (f(x_i)\Delta x) HΔx(X)=−i=−∞∑∞f(xiΔx)log(f(xi)Δx)
定义微分熵的目的:微分熵差具有信息度量的意义、连续信源的微分熵与离散信源的熵在形式上统一。
6.2 连续随机变量的AEP
定理 6.2.1设X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn是概率密度函数为p(x)p(x)p(x)的i.i.d随机序列,那么下面的极限依概率收敛−1nlogp(X1,X2,...,Xn)→h(X)-\frac{1}{n}\log p(X_1,X_2,...,X_n)\to h(X)−n1logp(X1,X2,...,Xn)→h(X)
定义6.2.1(体积)集合A⊂RnA\sub R^nA⊂Rn的体积Vol(A)Vol(A)Vol(A)定义为:Vol(A)=∫Sdx1dx2...dxnVol(A) = \int_S dx_1 dx_2 ... dx_nVol(A)=∫Sdx1dx2...dxn。
定理6.2.2典型集Aε(n)A_\varepsilon^{(n)}Aε(n)有如下性质:
a. 当nnn充分大时,Pr{Aε(n)}>1−εPr\{A_\varepsilon^{(n)}\}>1-\varepsilonPr{Aε(n)}>1−ε;
b. 对于所有nnn,Vol(Aε(n))⩽2n(h(X)+ε)Vol(A_\varepsilon^{(n)})\leqslant 2^{n(h(X)+\varepsilon)}Vol(Aε(n))⩽2n(h(X)+ε);
c. 当nnn充分大时,Vol(Aε(n))⩾(1−ε)2n(h(X)−ε)Vol(A_\varepsilon^{(n)})\geqslant (1-\varepsilon)2^{n(h(X)-\varepsilon)}Vol(Aε(n))⩾(1−ε)2n(h(X)−ε)。
定理8.2.3在一阶指数意义下, 在所有概率P⩾1−εP\geqslant 1-εP⩾1−ε的集合中,Aε(n)A_\varepsilon^{(n)}Aε(n)是体积最小者。
微分熵解释:熵就是拥有大部分概率的最小集的边长的对数值。因此, 较低的熵意味着随机变量被限于一个狭小的有效正方体内,而较高的熵意味着该随机变量是高度分散的。
6.3 微分熵与离散的关系
定理6.3.1如果随机变量XXX的密度函数f(x)f(x)f(x)是黎曼可积的,那么
HΔx(X)+logΔx→h(f)=h(X),Δx→0H_{\Delta x}(X)+\log \Delta x \to h(f) = h (X),\Delta x\to 0 HΔx(X)+logΔx→h(f)=h(X),Δx→0
于是,连续随机变量XXX经过nnn比特量化处理(分割的小区间长度1/2n1/2^n1/2n后的熵大约为h(X)+nh(X)+nh(X)+n。
6.4 联合微分熵与条件微分熵
定义6.4.1 (联合微分熵)联合密度函数为f(x1,x2,...,xn)f(x_1, x_2, ..., x_n)f(x1,x2,...,xn)的一组随机变量X1,X2,...,XnX_1, X_2, ..., X_nX1,X2,...,Xn的联合微分熵定义为
h(X1,X2,...,Xn)=−∫f(xn)logf(xn)dxnh(X_1,X_2,...,X_n) = -\int f(x^n)\log f(x^n)dx^n h(X1,X2,...,Xn)=−∫f(xn)logf(xn)dxn
定义6.4.2 (条件微分熵)联合密度函数为f(x,y)f(x, y)f(x,y),条件微分熵定义为
h(X∣Y)=−∫f(x,y)logf(x∣y)dxdyh(X|Y) = -\int f(x,y)\log f(x|y)dxdy h(X∣Y)=−∫f(x,y)logf(x∣y)dxdy
定理6.4.1 (多元正态分布的熵)设X1,X2,...,XnX_1, X_2, ..., X_nX1,X2,...,Xn服从均值为μμμ,协方差矩阵为KKK的多元正态分布则
h(X1,X2,...,Xn)=h(N(μ,K))=12log((2πe)n∣K∣)h(X_1,X_2,...,X_n) = h(N(\mu,K)) = \frac{1}{2}\log((2\pi e)^n|K|) h(X1,X2,...,Xn)=h(N(μ,K))=21log((2πe)n∣K∣)
6.5 相对熵与互信息
互信息的一般形式:
可从随机变量的值域的有限分割的角度来定义互信息。设χ\chiχ为随机变量XXX的值域,P\mathcal{P}P为χ\chiχ的一个分割是指存在有限个不相交的集合PiP_iPi使得⋃iPi=x\bigcup_iP_i = x⋃iPi=x。XXX关于PPP的量化记为[X]P[X]_{\mathcal{P}}[X]P是定义如下的离散随机变量:
Pr([X]P=i)=Pr(X∈Pi)=∫PidF(x)Pr([X]_P = i) = Pr(X \in P_i) = \int_{P_i}dF(x) Pr([X]P=i)=Pr(X∈Pi)=∫PidF(x)
任何随机变量XXX与YYY间的互信息如下
I(X;Y)=supP,QI([X]P;[Y]Q)I(X;Y) = \sup_{P,Q}I([X]_P;[Y]_Q) I(X;Y)=P,QsupI([X]P;[Y]Q)
6.6 微分熵、相对熵以及互信息的性质
定理6.6.1(相对熵非负):D(f∣∣g)⩾0D(f||g)\geqslant 0D(f∣∣g)⩾0,当且仅当∗f∗=∗g∗*f*=*g*∗f∗=∗g∗,几乎处处等号成立。
定理6.6.2 (微分熵的链式规则):h(X1,X2,...,Xn)=∑i=1nh(Xi∣X1,X2,...,Xi−1)h(X_1,X_2,...,X_n) = \sum_{i=1}^n h(X_i | X_1,X_2,...,X_{i-1})h(X1,X2,...,Xn)=∑i=1nh(Xi∣X1,X2,...,Xi−1)。
定理6.6.3 (微分熵的平移不变性):h(X+c)=h(X)h(X+c) = h(X)h(X+c)=h(X)。
定理6.6.4 (微分熵的倍加性): h(aX)=h(X)+log∣a∣h(aX)=h(X)+log|a|h(aX)=h(X)+log∣a∣。
定理6.6.5 (随机向量微分熵的上界):设随机向量x∈Rnx\in R^nx∈Rn的均值为零,协方差矩阵为K=EXXTK=EXX^TK=EXXT则
h(X)⩽12log((2πe)n∣K∣)h(X)\leqslant \frac{1}{2}\log((2\pi e)^n|K|) h(X)⩽21log((2πe)n∣K∣)
当且仅当X∼N(0,K)X\sim N(0,K)X∼N(0,K)等号成立。
定理8.6.6 (估计误差与微分熵):对任意随机变量X及其估计X^\hat{X}X^,
E(X−X^)2⩾12πee2h(X)E(X-\hat{X})^2\geqslant \frac{1}{2\pi e}e^{2h(X)} E(X−X^)2⩾2πe1e2h(X)
,其中等号成立的充分必要条件是X为高斯分布而X^\hat{X}X^为其均值。