54、语言模型与自编码器、生成对抗网络的前沿探索

语言模型与生成模型前沿探析

脑补型产品

于 2025-10-27 14:46:07 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精华解读文章标签：语言模型自编码器生成对抗网络

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154944126

机器学习实战精华解读专栏收录该内容

75 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语言模型与自编码器、生成对抗网络的前沿探索

1. 语言模型的创新进展

2018 年被称为“NLP 的 ImageNet 时刻”，LSTM 和基于 Transformer 的架构在大型数据集上训练，取得了显著进展。以下是该时期一些重要的创新成果：
- ELMo ：引入了基于语言模型的嵌入（Embeddings from Language Models，ELMo），这是从深度双向语言模型的内部状态学习到的上下文相关词嵌入。例如，“queen”在“Queen of the United Kingdom”和“queen bee”中的嵌入是不同的。
- ULMFiT ：作者使用自监督学习在大型文本语料库上训练 LSTM 语言模型，然后在各种任务上进行微调。该模型在六个文本分类任务上大幅超越了现有技术水平，在大多数情况下将错误率降低了 18 - 24%。此外，通过仅在 100 个标记示例上微调预训练模型，就可以达到在 10,000 个示例上从头开始训练的模型的相同性能。
- GPT ：使用类似 Transformer 的架构，通过自监督学习在大型数据集上进行预训练，然后在各种语言任务上进行微调。这些任务包括文本分类、蕴含关系判断、相似度计算和问答等。几个月后推出的 GPT - 2 架构更大（拥有超过 15 亿个参数），并且在许多任务上无需微调就能取得良好性能，实现了零样本学习（Zero - Shot Learning，ZSL）。一个较小版本（“仅”有 1.17 亿个参数）的 GPT - 2 模型及其预训练权重可在 https://github.com/openai/gpt - 2 上获取。

会员秒杀 ¥9.9 重磅福利

超级会员免费看