论文:A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional
Neural Networks for Sentence Classification
2016年的论文,中国人的论文,作者写得很认真,每次实验的都非常详细(如交叉验证,实验多次等),这篇博客略去了对实验细节的介绍,只阐述结果。
Abstract
近年来,CNN已被证明可用于序列分类,并且能获得很好的效果(strong performance)。但要真正在实践中,使用CNN进行序列分类,还需要知道CNN的各项参数(如卷积核的大小和个数)对序列分类的影响,方便调参。
作者基于一层CNN构建序列分类模型,在9个数据集上进行了大量实验,包括与SVM和逻辑回归的比较,也包括CNN不同参数的实验。
本文的贡献在于,对使用CNN做序列分类给出了很多实用建议,也在实验中论证了CNN分类序列的合理性。
Introduction
目前,序列分类的CNN模型的构造如下图所示(来自论文Convolutional Neural Networks for Sentence Classification):

- 输入序列是
I like this movie very much !,长为7,每个token都被embedding成5维向量,因此模型的输入是7x5的矩阵。 - 模型的第一层是卷积层,卷积层共有6个卷积核: k1, k2, k3, k4, k5, k6,它们的大小分别是4x5, 3x5, 2x5。
- 那

本文基于2016年的论文,探讨了CNN在序列分类任务中的应用,通过一系列实验分析了卷积核大小、个数、嵌入方法、激活函数、pooling策略和正则项对模型性能的影响。实验表明,卷积核大小选择对结果有显著影响,而卷积核个数、激活函数和不同embedding方法的影响相对较小。对于pooling策略,1-max pooling优于其他。在某些情况下,更新预训练word2vec参数能提升性能,但并非总是有效。
最低0.47元/天 解锁文章
917

被折叠的 条评论
为什么被折叠?



