信息量:$I(x_0) = -log(P(x_0))$
熵是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望:
$$ H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right) $$
相对熵又称KL散度(Kullback-Leibler (KL) divergence)
$$ D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}=E_{p(x)}\left(\frac{p(x)}{q(x)}\right) $$
交叉熵是来自相对墒,对相对熵变形后,后半部分为交叉熵。
$$ \begin{aligned}D_{K L}(p \| q) &=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \\&=-H(p(x))+\left[-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\right]\end{aligned} $$