循环神经网络在自然语言处理中的应用与挑战
1. 核心任务概述
在自然语言处理领域,翻译和文本生成是两个重要的任务。翻译需要待翻译的文本以及源语言和目标语言,有时还需要上下文信息来理解习语等语言特性。文本生成通常从一个种子或提示开始,算法以此为起点,逐词构建文本,这种技术被称为自回归。自回归系统会自动将先前的输出拼接起来作为输入,预测序列中的下一个单词。更广泛地说,通过算法生成文本被称为自然语言生成(NLG)。
这两个任务都依赖于语言模型,它接收一个单词序列作为输入,判断该序列成为一个结构良好句子的可能性,但不判断句子是否写得好、是否有意义或是否真实。训练好的神经网络常被视为语言模型。
2. 文本数字化方法
为了构建有助于翻译和文本生成的系统,需要将文本转换为计算机可用的数字形式,常见的方法有两种:
- 基于字符 :对文本中可能出现的所有符号进行编号。Unicode是人类语言中最广泛的字符列表,最新版本Unicode 13.0.0涵盖154种书面语言,识别出143,859个不同字符。在实际应用中,为了简化,可使用英文文本中最常见的89个字符进行文本生成示例。
- 基于单词 :对文本中可能出现的所有单词进行编号。由于统计世界上所有语言的单词数量是一项艰巨的任务,这里以英语为例。现代英语词典大约有300,000个词条,将这些单词及其对应编号组成词汇表。本章的大多数示例采用基于单词的方法。
通过这些方法,可以创建任何句子的数字表示,将数字列表输入训练好的自回归网络,网络预测下一个单词的编号,不断重复这个过程,最后将数字转换回对应的单词,就能看到生成的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



