思路
观察特征:
- 图片往往由许多大色块组成
- 因此,相邻像素具有强局部相关性(strong local correlation)
- 从数学意义上,图片中的任意一组相邻像素块(pixel patch)的组合数是很小的。
比如任意 5x5 像素块:
- 设:
- $\mathcal{P}$ 为所有可能的5x5像素块的集合。
- $\mathcal{R} \subseteq \mathcal{P}$ 为真实世界图像中实际出现的5x5像素块的集合。
- 由于图像强烈的局部相关性,$\mathcal{R}$ 中的像素块受到高度约束;因此,$\mathcal{R}$ 是 $\mathcal{P}$ 的极小子集
$$
|\mathcal{R}| \ll |\mathcal{P}|
$$
- 换而言之,从所有像素组合的集合 $\mathcal{P}$ 中随机选取的像素块 $p$ 属于 $\mathcal{R}$ 的概率趋紧于0
$$
\mathbb{P}(p\in \mathcal{R})\approx0\quad \text{ for most }\ p \in \mathcal{P}
$$
启发
- 既然局部像素组合是约束的,那么局部像素符合某种特征
- 因此,在局部检测某种特定的像素组合(pattern)变得有意义
- 这就引出了「卷积神经网络」的思路 — 使用卷积滤波器来跨全图检测特征
- 反之,若稍微打乱局部像素的排列,从而破坏「局部相关性」,卷积网络的性能将大打折扣。
- 全连接网络(Fully Connected Network) 则不受影响;它的所有节点完全相连,所以对输入结构并不敏感,只是这样做的代价是计算量更大。
- 本质上,卷积神经网络正是利用了这种局部相关性,以较低的计算成本实现了更优的性能。