multi-sample dropout

首页 > 深度学习 > 正文

2019-06-07

Multi-Sample Dropout for Accelerated Training and Better Generalization

简单地说，假设dropout的比例是0.5，那么dropout会在每轮训练中随机忽略（即 drop）50%的神经元，以避免过拟合的发生。如此一来，神经元之间无法相互依赖，从而保证了神经网络的泛化能力。在infer时，会用到所有的神经元，因此所有的信息都被保留；但输出值会乘0.5，使平均值与训练时间一致。这种推理网络可以看作是训练过程中随机生成的多个子网络的集合。后来有一些变形，例如DropConnect，也就是Regularization of Neural Networks using DropConnect，随机忽略的是神经元之间的部分连接，而不是神经元。

本文阐述的也是一种 dropout 技术的变形——multi-sample dropout。传统 dropout 在每轮训练时会从输入中随机选择一组样本（称之为 dropout 样本），而 multi-sample dropout 会创建多个 dropout 样本，然后平均所有样本的损失，从而得到最终的损失。这种方法只要在 dropout 层后复制部分训练网络，并在这些复制的全连接层之间共享权重就可以了，无需新运算符。

通过综合 M 个 dropout 样本的损失来更新网络参数，使得最终损失比任何一个 dropout 样本的损失都低。这样做的效果类似于对一个 minibatch 中的每个输入重复训练 M 次。因此，它大大减少了训练迭代次数。

原创文章，转载请注明出处！
本文链接：http://daiwk.github.io/posts/dl-multi-sample-dropout.html

上篇： GAN-CDQN

下篇： dlrm

comment here..

multi-sample dropout

栏目分类

最新文章