机器学习多领域技术解析与应用
1. 卷积层在RNN中的应用
1D卷积层在RNN中能有效预处理输入,减少不稳定梯度问题。它可降低输入的时间分辨率(下采样),帮助RNN层检测长期模式。甚至可以仅使用卷积层构建模型,如WaveNet架构。
在视频分类方面,一种可行的架构是每秒取一帧,将每帧通过相同的卷积神经网络(如预训练的Xception模型,若数据集不大可冻结其参数),把CNN的输出序列输入到序列到向量的RNN,最后通过softmax层得到各类别的概率。训练时使用交叉熵作为损失函数。若要结合音频进行分类,可使用一维卷积层栈将音频的时间分辨率从每秒数千帧降低到每秒一帧,使其与图像帧数匹配,然后将输出序列沿最后一维与序列到向量RNN的输入拼接。
2. 自然语言处理相关技术
2.1 有状态与无状态RNN
- 无状态RNN只能捕捉长度小于或等于其训练窗口大小的模式,而有状态RNN能捕捉更长期的模式。但实现有状态RNN更困难,尤其是正确准备数据集。而且有状态RNN并非总是表现更好,因为连续批次并非独立同分布,梯度下降不适合处理非独立同分布的数据集。
2.2 序列到序列RNN与编码器 - 解码器RNN
- 逐词翻译句子效果通常很差,普通序列到序列RNN会在读取第一个单词后立即开始翻译,而编码器 - 解码器RNN会先读取整个句子再进行翻译。不过也可以想象一个普通序列到序列RNN在不确定下一个输出时输出沉默。
2.3 处理可变长度序列
- 对于可变长度的输入序列,可通过填充较短序列使批次内所有序列长度相同,并
超级会员免费看
订阅专栏 解锁全文
1985

被折叠的 条评论
为什么被折叠?



