深度学习在文本处理与生成艺术内容中的应用
1. 基于Transformer的序列到序列学习
在自然语言处理中,传统基于RNN的模型在处理长文档时存在局限性,无法有效保留长期上下文信息。因此,机器学习领域开始广泛采用Transformer架构来解决序列到序列的问题。
1.1 Transformer的优势
序列到序列学习是Transformer真正发挥优势的任务。神经注意力机制使Transformer模型能够成功处理比RNN模型长得多且更复杂的序列。以人类将英语翻译成西班牙语为例,我们不会逐词读取英语句子并记住其含义,然后逐词生成西班牙语句子。对于长段落,我们会在源句子和正在进行的翻译之间来回查看,并在写下翻译的不同部分时关注源句子中的不同单词。Transformer通过神经注意力机制也能实现类似的功能。
1.2 Transformer编码器和解码器
- 编码器 :Transformer编码器使用自注意力机制为输入序列中的每个标记生成上下文感知的表示。它读取源序列并生成其编码表示,且编码表示保持序列格式,是一系列上下文感知的嵌入向量。
- 解码器 :Transformer解码器与RNN解码器类似,它读取目标序列中的标记0…N并尝试预测标记N + 1。关键在于,在这个过程中,它使用神经注意力机制来确定编码源句子中哪些标记与当前尝试预测的目标标记最相关。目标序列充当注意力“查询”,用于更密切地关注源序列的不同部分,源序列同时扮演键和值的角色。
以下是TransformerDecoder类的实现代码: <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



