12、自然语言处理中的深度迁移学习技术

最新推荐文章于 2025-12-04 16:52:31 发布

oo7890

最新推荐文章于 2025-12-04 16:52:31 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏：迁移学习赋能NLP 文章标签：自然语言处理深度迁移学习 ELMo

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151127094

迁移学习赋能NLP 专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理中的深度迁移学习技术

1. 基于循环神经网络的自然语言处理深度迁移学习

在自然语言处理（NLP）的深度迁移学习中，微调模型在预测任务上表现出色，能正确预测每个示例，这进一步验证了迁移学习实验的有效性。同时，某些框架不仅适用于表格数据，还能通过特定的适应程序应用于任意输入文本。

2. 基于语言模型的嵌入（ELMo）

ELMo是早期流行的预训练语言模型之一，与某些模型类似，它由字符级卷积神经网络（CNNs）和双向长短期记忆网络（bi - LSTMs）组成。ELMo产生的词表示是整个输入句子的函数，即该模型是上下文感知的词嵌入。

2.1 ELMo双向语言建模

语言建模旨在对给定序列中某个词出现的概率进行建模。以一个包含N个词的句子为例：
- 前向语言模型 ：计算序列的联合概率时，会考虑每个词基于其从左到右历史的条件概率。例如，对于句子 “You can be”，前向语言模型计算该句子的概率为：第一个词是 “You” 的概率乘以在第一个词是 “You” 的条件下第二个词是 “can” 的概率，再乘以在前两个词是 “You can” 的条件下第三个词是 “be” 的概率。其公式为：
[P(w_1, w_2, \ldots, w_N) = \prod_{k = 1}^{N} P(w_k|w_1, w_2, \ldots, w_{k - 1})]
- 后向语言模型 ：与前向语言模型相反，它基于从右到左的词历史来计算序列的联合概率。对于句子 “You can be”，后向语言模型计算该句子的概率为：最后一个词是 “be” 的概率乘以