“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

信息量

信息量 $\equiv$ 意外程度

推导信息公式

  1. 动机:我们要找到一个合适的函数 $I(x)$ 用于衡量发生事件 $x$ 给我们带来的信息量
  2. 要求:考虑到信息量和概率之间的联系,$I(x)$ 需要满足以下几点:
  3. **公式:**同时满足以上三个条件的函数 $I(x)$ 为

$$ I(x_i)=-\log_2 p(x_i) $$

  1. 验证满足条件:

信息熵

熵 $\equiv$ 期望信息量

$$ \begin{align*} \text{Ent}(X)=E(I(X))&=\sum_{i=1}^n p(x_i) I(x_i)\\ &= \sum_{i=1}^n p(x_i)(-\log_2 p(x_i))\\ &= -\sum_{i=0}^n p(x_i)\log_2 p(x_i)

\end{align*} $$

熵 $\equiv$ 混乱度 / 不纯度