深度神经网络的模型压缩和加速方法

首页 > 深度学习 > 正文

2018-04-24

背景

在2012年，Krizhevsky等人提出的alexnet（ImageNet Classification with Deep Convolutional），以超过第二名以传统人工设计特征方法准确率 10% 的巨大领先取得了 ImageNet图像分类比赛冠军。

alexnet是1个包含5个卷积层和3个全连接层的6000万参数的网络。通常情况下，即使使用当时性能顶级的GPU NVIDIA K40来训练整个模型仍需要花费两到三天时间。对于使用全连接的大规模网络，其参数规模甚至可以达到数十亿量级。

为了解决全连接层参数规模的问题，人们转而考虑增加卷积层，使全连接参数降低。随之带来的负面影响便是大大增长了计算时间与能耗。

Krizhevsky在2014年的文章中，提出的两点观察结论为后来的研究深度模型的压缩与加速提供了统计依据：

现代卷积神经网络主要由两种层构成，他们具有不一样的属性和性能(!!!!!!参考卷积神经网络的并行化模型——One weird trick for parallelizing convolutional neural networks)：

综上：卷积层计算量大，所需参数系数 W 少，全连接层计算量小，所需参数系数 W 多。因此对于卷积层适合使用数据并行，对于全连接层适合使用模型并行。

一个典型的例子是具有50个卷积层的ResNet-50需要超过 95MB的存储器以及38亿次浮点运算。在丢弃了一些冗余的权重后，网络仍照常工作，但节省了超过75％的参数和50％的计算时间。

参数修剪和共享（parameter pruning and sharing)：针对模型参数的冗余性，试图去除冗余和不重要的项。
低秩因子分解（low-rank factorization）：使用矩阵/张量分解来估计深度学习模型的信息参数。
转移/紧凑卷积滤波器（transferred/compact convolutional filters）：设计了特殊的结构卷积滤波器来降低存储和计算复杂度。
知识蒸馏（knowledge distillation）：通过学习一个蒸馏模型，训练一个更紧凑的神经网络来重现一个更大的网络的输出。