May 16, 2019 1 min to read

人工智能学习手册

从卷积神经网络开始

卷积神经网络

卷积神经网络（CNN：Convolutional neural networks）或深度卷积神经网络（DCNN：deep convolutional neural networks）跟其它类型的神经网络大有不同。它们主要用于处理图像数据，但可用于其它形式数据的处理，如语音数据。对于卷积神经网络来说，一个典型的应用就是给它输入一个图像，而后它会给出一个分类结果。也就是说，如果你给它一张猫的图像，它就输出“猫”；如果你给一张狗的图像，它就输出“狗”。

卷积神经网络是从一个数据扫描层开始，这种形式的处理并没有尝试在一开始就解析整个训练数据。比如：对于一个大小为200X200像素的图像，你不会想构建一个40000个节点的神经元层。而是，构建一个20X20像素的输入扫描层，然后，把原始图像第一部分的20X20像素图像（通常是从图像的左上方开始）输入到这个扫描层。当这部分图像（可能是用于进行卷积神经网络的训练）处理完，你会接着处理下一部分的20X20像素图像：逐渐（通常情况下是移动一个像素，但是，移动的步长是可以设置的）移动扫描层，来处理原始数据。

注意，你不是一次性移动扫描层20个像素（或其它任何扫描层大小的尺度），也不是把原始图像切分成20X20像素的图像块，而是用扫描层在原始图像上滑过。这个输入数据（20X20像素的图像块）紧接着被输入到卷积层，而非常规的神经细胞层——卷积层的节点不是全连接。每一个输入节点只会和最近的那个神经元节点连接（至于多近要取决于具体的实现，但通常不会超过几个）。

这些卷积层会随着深度的增加而逐渐变小：大多数情况下，会按照输入层数量的某个因子缩小（比如：20个神经元的卷积层，后面是10个神经元的卷积层，再后面就是5个神经元的卷积层）。2的n次方（32, 16, 8, 4, 2, 1）也是一个非常常用的因子，因为它们在定义上可以简洁且完整地除尽。除了卷积层，池化层（pooling layers）也非常重要。

池化是一种过滤掉细节的方式：一种常用的池化方式是最大池化，比如用2X2的像素，然后取四个像素中值最大的那个传递。为了让卷积神经网络处理语音数据，需要把语音数据切分，一段一段输入。在实际应用中，通常会在卷积神经网络后面加一个前馈神经网络，以进一步处理数据，从而对数据进行更高水平的非线性抽象。