自然语言处理中的模型与方法
1. 对抗共享 - 私有网络与训练技巧
在训练模型时,若从一开始就优化总损失 $L$,可能无法实现快速收敛或提升性能。一个实用的技巧是,先在最初的几次训练迭代中最大化某个量,之后再按照 $L$ 的要求进行最小化操作。这是因为在训练初始阶段,随机初始化的模型无法进行可靠的任务分类,此时“混淆”任务分类器对模型并无帮助,因为根本不存在有效的任务分类器。通过多次迭代最大化该量,能最大化任务分类的对数似然,从而得到一个合理的任务分类器模型,特别是对输出参数 $p$ 进行训练。训练好的任务分类器输出层为我们提供了一个通道,可通过“混淆”任务分类器从共享参数中去除特定任务信息。
2. 所学模型与方法总结
- 语言模型 :包括神经 $n$ - 元语言模型和循环神经语言模型。
- 估计方法 :噪声对比估计。
- 词表示 :词嵌入作为分布式词表示,以及上下文词嵌入。
- 学习策略 :预训练和迁移学习。
3. 模型发展历程
- 词嵌入相关 :Bengio 等人在 2003 年提出神经 $n$ - 元语言模型。Collobert 等人在 2011 年展示了词嵌入在神经自然语言处理中表示输入的实用性。Hierarchical softmax(Morin 和 Bengio,2005)和对数双线性模型(Mnih 和 Hinton,2007)启发了 CBO
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



