【人工智能与深度学习】自然语言处理中的深度学习 综述 语言模型 神经语言模型 卷积语言模型 循环语言模型 Transformer语言模型 多头注意力机制 一些使用技巧 (适用于多头注意力机制和位置信息嵌入) 以及如何从语言模型中解码 技巧1: 利用层标准化来稳定训练 技巧2: 学习率预热(Warmup)和逆方差学习率调整 技巧3: 谨慎初始化参数 技巧4: 标签平滑化 以下是我们之前讨论的方法的结果. 在右面列出的"ppl"代表困惑度(perplexity, 交叉熵的指数形式). ppl越低越好. 关于transformer语言模型的重要知识点 自注意力机制是平方时间复杂度的(任意词可以访问到其他所有词), 我们需要限制输入序列的最大长度. Transformer有很好的扩展性 从语言模型中解码 贪婪解码可能不灵 穷举搜索亦不现实 以上内容的理解问答 综述 近年来令人瞩目的成就: 对于某些语言, 机器翻译比起人工翻译更受青睐 在一些问答数据集上, 机器超过人类水平 语言模型可以生成流利的段落 (比如, Radford et al. 2019) 用机器学习可以得到非常通用的模型, 从而对于每个不同的任务, 机器学习只需要少量与这个任务相关的知识 语言模型 语言模型给一段文字指定概率: p ( x 0 , . . . x n