$$ \begin{align*} &\text{KL}(P\|Q) = \sum P(x) \log\frac{P(x)}{Q(x)}\\[3ex] &\text{KL}(P\|Q) = \int P(x) \log\frac{P(x)}{Q(x)} dx
\end{align*} $$
首先,某事件 $x$ 在 $P$ 和 $Q$ 两种假设下的信息量分别为:
则用 $Q$ 来近似 $P$ 时,事件 $x$ 需要用到的额外信息量 $\Delta I(x)$ 为:
$$ \Delta I(x)=\log\frac{1}{q(x)}-\log\frac{1}{p(x)}=\log \frac{p(x)}{q(x)} $$
既然KL散度需要衡量 整个 分布的差异,那就求期望相对熵:
$$ \begin{align*}
D_\text{KL}(P\|Q)&=\mathbb{E}_P\left[\log\frac{p(x)}{q(x)}\right]\\[3ex]
&=\sum_{x\in X}p(x)\log\frac{p(x)}{q(x)}
\end{align*} $$
重新展开 KL散度公式:
$$ \begin{align*} D_\text{KL}(P\|Q) &= \sum_{x\in X} p(x) \log \frac{p(x)}{q(x)} \\[3ex]
&=\sum_{x\in X}p(x)(\log\frac{1}{q(x)} - \log\frac{1}{p(x)}) \\[3ex]
&= \sum_{x\in X}-p(x)\log q(x) - \sum_{x\in X}-p(x)\log p(x)
\end{align*} $$
很容易发现:
$$
\begin{align*} H(P,Q) &= H(P) + D_{\text{KL}}(P \| Q) \\ &= -\sum_{x} P(x) \log Q(x) \end{align*}
$$
$$
L(\hat{y},y) = -\frac{1}{n} \sum_{i=1}^n \sum_{j=1}^k y_{ij} \log \hat{y}_{ij}
$$