KL散度

基本定义

$$ \begin{align*} &\text{KL}(P\|Q) = \sum P(x) \log\frac{P(x)}{Q(x)}\\[3ex] &\text{KL}(P\|Q) = \int P(x) \log\frac{P(x)}{Q(x)} dx

\end{align*} $$

KL散度衡量两个概率分布 $P,Q$ 之间的差异
- $P(x)$ 对应真实分布
- $Q(x)$ 对应假设、近似、或估计的分布
如果 $P$ 和 $Q$ 越接近，那么 $D_{\text{KL}}(P\|Q)$ 就越小；反之差异越大

相对熵

相对熵就是当我们假设随机事件 $X$ 取自分布 $Q$，但$X$实际取自 $P$ 时，其意外程度
换而言之：使用基于$Q$的编码来编码来自$P$的样本平均所需的额外比特个数

公式推导

动机：
- 需要找到一个函数 $D(P\|Q)$ 来衡量 $P,Q$ 两个分布之间的差异程度
- 发现可以用上面说的相对熵来衡量两者的差异程度 — 相对熵其实就是KL 散度
推导：
- 首先，某事件 $x$ 在 $P$ 和 $Q$ 两种假设下的信息量分别为：
  - $I_p(x)=-\log p(x)=\log \frac{1}{p(x)}$
  - $I_q(x) = -\log q(x) = \log \frac{1}{q(x)}$
- 则用 $Q$ 来近似 $P$ 时，事件 $x$ 需要用到的额外信息量 $\Delta I(x)$ 为：
  
  $$ \Delta I(x)=\log\frac{1}{q(x)}-\log\frac{1}{p(x)}=\log \frac{p(x)}{q(x)} $$
- 既然KL散度需要衡量整个分布的差异，那就求期望相对熵：
  
  $$ \begin{align*}
  
  D_\text{KL}(P\|Q)&=\mathbb{E}_P\left[\log\frac{p(x)}{q(x)}\right]\\[3ex]
  
  &=\sum_{x\in X}p(x)\log\frac{p(x)}{q(x)}
  
  \end{align*} $$

交叉熵

交叉熵与KL散度的关系

重新展开 KL散度公式：

$$ \begin{align*} D_\text{KL}(P\|Q) &= \sum_{x\in X} p(x) \log \frac{p(x)}{q(x)} \\[3ex]

&=\sum_{x\in X}p(x)(\log\frac{1}{q(x)} - \log\frac{1}{p(x)}) \\[3ex]

&= \sum_{x\in X}-p(x)\log q(x) - \sum_{x\in X}-p(x)\log p(x)

\end{align*} $$
很容易发现：
- $\sum_{x \in X} -p(x)\log p(x)$ 就是原分布$P$的信息熵 → 计作 $H(P)$
- $\sum_{x\in X} -p(x)\log q(x)$ 则是$P,Q$的**「交叉熵」**→ 计作 $H(P,Q)$
$$

\begin{align*} H(P,Q) &= H(P) + D_{\text{KL}}(P \| Q) \\ &= -\sum_{x} P(x) \log Q(x) \end{align*}

$$
- 可见交叉熵 = 熵 + KL散度
- 当 $P=Q$ 时，$D_{\text{KL}}(P\|Q)=0$，此时 $H(P,Q)=H(P)$
- 通常我们的基准分布$P$是某个我们希望拟合的数据集。那么交叉熵显然就是我们拟合出的结果 $Q$ 和原数据 $P$ 的差异度

交叉熵的应用

机器学习中常用交叉熵作为分类问题的损失函数
设模型输出 $\hat{y}_1,\ldots,\hat{y}_n$，真实标签 $y_1,\ldots,y_n$，则交叉熵损失为：

$$

L(\hat{y},y) = -\frac{1}{n} \sum_{i=1}^n \sum_{j=1}^k y_{ij} \log \hat{y}_{ij}

$$

最小化交叉熵损失，相当于最小化模型分布与真实分布的KL散度