卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,目前众多传统计算机视觉算法已经被深度学习所替代。由于其巨大的商业落地价值,导致深度学习以及卷积神经网络成为研究的热点,大量优秀的工作不断地涌现。图像识别是计算机视觉领域最核心同时也是最基本的问题,其他的任务如目标检测,图像分割,图像生成,视频理解等都高度依赖于图像识别中的特征表达能力。
卷积神经网络在图像识别中的最新进展能够直接影响所有基于深度学习的计算机视觉任务的表现,因此深度了解该进展显得尤其重要。本文首先介绍卷积神经网络的基本模块,接着简要介绍这几年涌现出来的里程碑工作以及他们各自的特点,最后对这些工作进行总结以及给出自己的若干思考。
那么卷积神经网络又是怎么实现图像识别的呢?
1、图像识别数据收集
MNIST手写体识别数据集解决是一个相对简单的问题,而对于更加复杂的类别,可以用到CIFAR数据集。比如CIFAR10数据集收集了来自10个不同种类的6万张图片,每张图片像素为32x32.如下图
CIFAR10数据集与MNIST相似之处在于,其每张图片大小都是一定的,每张图片中都只包含一个类别。区别在于CIFAR10中的图片都是彩色的,而且分类难度也比MNIST高,人工标注的正确率约为94%。
在现实生活中,图片的格式不一定都是恒定的,类别也远超出10种,每张图片也会包含多个元素,因此需要有更强大的数据集。由斯坦福大学的李飞飞开发的ImageNet,有近1500万张图片,关联了大概20000个类别。
ImageNet每年都会举办图像识别竞赛ILSVRC(现已停办),每年的比赛都提供不同的数据集。下图给出不同算法在ImageNet图像分类上的top-5正确率,ton-N表示算法给出的前N个答案中有一个是正确的,2013年之后基本上所有的研究都集中在卷积神经网络上。
2、卷积神经网络介入
深度神经网络有多种,主要有全连接层神经网络,卷积神经网络和循环神经网络。其中全连接层神经网络之前已有介绍,其相邻层的节点之间都会相连。