自然语言处理中的深度迁移学习技术
1. 基于循环神经网络的自然语言处理深度迁移学习
在自然语言处理(NLP)的深度迁移学习中,微调模型在预测任务上表现出色,能正确预测每个示例,这进一步验证了迁移学习实验的有效性。同时,某些框架不仅适用于表格数据,还能通过特定的适应程序应用于任意输入文本。
2. 基于语言模型的嵌入(ELMo)
ELMo是早期流行的预训练语言模型之一,与某些模型类似,它由字符级卷积神经网络(CNNs)和双向长短期记忆网络(bi - LSTMs)组成。ELMo产生的词表示是整个输入句子的函数,即该模型是上下文感知的词嵌入。
2.1 ELMo双向语言建模
语言建模旨在对给定序列中某个词出现的概率进行建模。以一个包含N个词的句子为例:
- 前向语言模型 :计算序列的联合概率时,会考虑每个词基于其从左到右历史的条件概率。例如,对于句子 “You can be”,前向语言模型计算该句子的概率为:第一个词是 “You” 的概率乘以在第一个词是 “You” 的条件下第二个词是 “can” 的概率,再乘以在前两个词是 “You can” 的条件下第三个词是 “be” 的概率。其公式为:
[P(w_1, w_2, \ldots, w_N) = \prod_{k = 1}^{N} P(w_k|w_1, w_2, \ldots, w_{k - 1})]
- 后向语言模型 :与前向语言模型相反,它基于从右到左的词历史来计算序列的联合概率。对于句子 “You can be”,后向语言模型计算该句子的概率为:最后一个词是 “be” 的概率乘以
超级会员免费看
订阅专栏 解锁全文
4696

被折叠的 条评论
为什么被折叠?



