1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 【计算机科学与技术】信息论笔记(6):微分熵

【计算机科学与技术】信息论笔记(6):微分熵

时间:2020-01-29 15:42:50

相关推荐

【计算机科学与技术】信息论笔记(6):微分熵

03本篇是学习信息论的入门笔记,希望能与各位分享进步!这是第六章:微分熵~

文章目录

6. 微分熵6.1 定义6.2 连续随机变量的AEP6.3 微分熵与离散的关系6.4 联合微分熵与条件微分熵6.5 相对熵与互信息6.6 微分熵、相对熵以及互信息的性质

6. 微分熵

6.1 定义

定义6.1.1设XXX是一个随机变量,其累计分布函数为F(x)=Pr(X⩽x)F(x)=Pr(X\leqslant x)F(x)=Pr(X⩽x) 。如果F(x)F(x)F(x)连续,则称该随机变量连续。另外,使f(x)>0f(x)>0f(x)>0 的所有xxx构成的集合称为XXX的支撑集

定义6.1.2(微分熵)一个以f(x)f(x)f(x)为密度函数的连续型随机变量XXX的微分熵h(X)h(X)h(X)定义为

h(X)=−∫Sf(x)log⁡f(x)dxh(X) = - \int_S f(x)\log f(x)dx h(X)=−∫S​f(x)logf(x)dx

其中SSS是这个随机变量的支撑集。离散的熵

HΔx(X)=−∑i=−∞∞f(xiΔx)log⁡(f(xi)Δx)H_{\Delta x}(X) = -\sum_{i=-\infty}^\infty f(x_i\Delta x)\log (f(x_i)\Delta x) HΔx​(X)=−i=−∞∑∞​f(xi​Δx)log(f(xi​)Δx)

定义微分熵的目的:微分熵差具有信息度量的意义、连续信源的微分熵与离散信源的熵在形式上统一。

6.2 连续随机变量的AEP

定理 6.2.1设X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​是概率密度函数为p(x)p(x)p(x)的i.i.d随机序列,那么下面的极限依概率收敛−1nlog⁡p(X1,X2,...,Xn)→h(X)-\frac{1}{n}\log p(X_1,X_2,...,X_n)\to h(X)−n1​logp(X1​,X2​,...,Xn​)→h(X)

定义6.2.1(体积)集合A⊂RnA\sub R^nA⊂Rn的体积Vol(A)Vol(A)Vol(A)定义为:Vol(A)=∫Sdx1dx2...dxnVol(A) = \int_S dx_1 dx_2 ... dx_nVol(A)=∫S​dx1​dx2​...dxn​。

定理6.2.2典型集Aε(n)A_\varepsilon^{(n)}Aε(n)​有如下性质:

a. 当nnn充分大时,Pr{Aε(n)}>1−εPr\{A_\varepsilon^{(n)}\}>1-\varepsilonPr{Aε(n)​}>1−ε;

b. 对于所有nnn,Vol(Aε(n))⩽2n(h(X)+ε)Vol(A_\varepsilon^{(n)})\leqslant 2^{n(h(X)+\varepsilon)}Vol(Aε(n)​)⩽2n(h(X)+ε);

c. 当nnn充分大时,Vol(Aε(n))⩾(1−ε)2n(h(X)−ε)Vol(A_\varepsilon^{(n)})\geqslant (1-\varepsilon)2^{n(h(X)-\varepsilon)}Vol(Aε(n)​)⩾(1−ε)2n(h(X)−ε)。

定理8.2.3在一阶指数意义下, 在所有概率P⩾1−εP\geqslant 1-εP⩾1−ε的集合中,Aε(n)A_\varepsilon^{(n)}Aε(n)​是体积最小者。

微分熵解释:熵就是拥有大部分概率的最小集的边长的对数值。因此, 较低的熵意味着随机变量被限于一个狭小的有效正方体内,而较高的熵意味着该随机变量是高度分散的。

6.3 微分熵与离散的关系

定理6.3.1如果随机变量XXX的密度函数f(x)f(x)f(x)是黎曼可积的,那么

HΔx(X)+log⁡Δx→h(f)=h(X),Δx→0H_{\Delta x}(X)+\log \Delta x \to h(f) = h (X),\Delta x\to 0 HΔx​(X)+logΔx→h(f)=h(X),Δx→0

于是,连续随机变量XXX经过nnn比特量化处理(分割的小区间长度1/2n1/2^n1/2n后的熵大约为h(X)+nh(X)+nh(X)+n。

6.4 联合微分熵与条件微分熵

定义6.4.1 (联合微分熵)联合密度函数为f(x1,x2,...,xn)f(x_1, x_2, ..., x_n)f(x1​,x2​,...,xn​)的一组随机

变量X1,X2,...,XnX_1, X_2, ..., X_nX1​,X2​,...,Xn​的联合微分熵定义为

h(X1,X2,...,Xn)=−∫f(xn)log⁡f(xn)dxnh(X_1,X_2,...,X_n) = -\int f(x^n)\log f(x^n)dx^n h(X1​,X2​,...,Xn​)=−∫f(xn)logf(xn)dxn

定义6.4.2 (条件微分熵)联合密度函数为f(x,y)f(x, y)f(x,y),条件微分熵定义为

h(X∣Y)=−∫f(x,y)log⁡f(x∣y)dxdyh(X|Y) = -\int f(x,y)\log f(x|y)dxdy h(X∣Y)=−∫f(x,y)logf(x∣y)dxdy

定理6.4.1 (多元正态分布的熵)设X1,X2,...,XnX_1, X_2, ..., X_nX1​,X2​,...,Xn​服从均值为μμμ,协方差矩阵为KKK的多元正态分布则

h(X1,X2,...,Xn)=h(N(μ,K))=12log⁡((2πe)n∣K∣)h(X_1,X_2,...,X_n) = h(N(\mu,K)) = \frac{1}{2}\log((2\pi e)^n|K|) h(X1​,X2​,...,Xn​)=h(N(μ,K))=21​log((2πe)n∣K∣)

6.5 相对熵与互信息

互信息的一般形式:

可从随机变量的值域的有限分割的角度来定义互信息。设χ\chiχ为随机变量XXX的值域,P\mathcal{P}P为χ\chiχ的一个分割是指存在有限个不相交的集合PiP_iPi​使得⋃iPi=x\bigcup_iP_i = x⋃i​Pi​=x。XXX关于PPP的量化记为[X]P[X]_{\mathcal{P}}[X]P​是定义如下的离散随机变量:

Pr([X]P=i)=Pr(X∈Pi)=∫PidF(x)Pr([X]_P = i) = Pr(X \in P_i) = \int_{P_i}dF(x) Pr([X]P​=i)=Pr(X∈Pi​)=∫Pi​​dF(x)

任何随机变量XXX与YYY间的互信息如下

I(X;Y)=sup⁡P,QI([X]P;[Y]Q)I(X;Y) = \sup_{P,Q}I([X]_P;[Y]_Q) I(X;Y)=P,Qsup​I([X]P​;[Y]Q​)

6.6 微分熵、相对熵以及互信息的性质

定理6.6.1(相对熵非负):D(f∣∣g)⩾0D(f||g)\geqslant 0D(f∣∣g)⩾0,当且仅当∗f∗=∗g∗*f*=*g*∗f∗=∗g∗,几乎处处等号成立。

定理6.6.2 (微分熵的链式规则):h(X1,X2,...,Xn)=∑i=1nh(Xi∣X1,X2,...,Xi−1)h(X_1,X_2,...,X_n) = \sum_{i=1}^n h(X_i | X_1,X_2,...,X_{i-1})h(X1​,X2​,...,Xn​)=∑i=1n​h(Xi​∣X1​,X2​,...,Xi−1​)。

定理6.6.3 (微分熵的平移不变性):h(X+c)=h(X)h(X+c) = h(X)h(X+c)=h(X)。

定理6.6.4 (微分熵的倍加性): h(aX)=h(X)+log∣a∣h(aX)=h(X)+log|a|h(aX)=h(X)+log∣a∣。

定理6.6.5 (随机向量微分熵的上界):设随机向量x∈Rnx\in R^nx∈Rn的均值为零,协方差矩阵为K=EXXTK=EXX^TK=EXXT则

h(X)⩽12log⁡((2πe)n∣K∣)h(X)\leqslant \frac{1}{2}\log((2\pi e)^n|K|) h(X)⩽21​log((2πe)n∣K∣)

当且仅当X∼N(0,K)X\sim N(0,K)X∼N(0,K)等号成立。

定理8.6.6 (估计误差与微分熵):对任意随机变量X及其估计X^\hat{X}X^,

E(X−X^)2⩾12πee2h(X)E(X-\hat{X})^2\geqslant \frac{1}{2\pi e}e^{2h(X)} E(X−X^)2⩾2πe1​e2h(X)

,其中等号成立的充分必要条件是X为高斯分布而X^\hat{X}X^为其均值。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。