论文链接:
https://arxiv.org/abs/1606.01781
论文动机:
在NLP任务中,RNN和CNN都是常用的方法,但与CV中的深度卷积网络相比,NLP使用的基本都是浅层网络。大家普遍认为加深网络深度并没有太大意义。
VDCNN架构:
VDCNN基于字符级别(character level),只利用小尺度的卷积核池化操作,包含了29个卷积层。
句子长度为s,论文中固定s=1024。经过lookup层,每个字符映射成一个16维的向量(character embedding)。为减少内存的占用,借鉴VGG和ResNets的两个设计规则:
1、对于相同的输出特征图大小,图层有相同数量的滤波器;
2、如果特征图的大小被减半,过滤器的数量增加一倍。
如何做到减少内存占用?