NLP漫谈:从Word2Vec到BERT,大模型演进之路探索

NLP之LLMs:自然语言处理大模型时代各种吊炸天算法概述(Word2Vec→ELMO→Attention→Transformer→GPT/BERT系列)、ELMO/GPT/BERT模型关系梳理之详细攻略

导读
:在2017年,Transformer模型问世,其强大的拟合能力迅速应用于各种sequence-to-sequence任务。Transformer模型包括两部分,Encoder用于特征表示,Decoder用于文本生成。它们各司其职,合在一起可以取得很好的效果。

2018年6月,OpenAI的GPT系列就对Transformer Decoder替换RNN作为语言模型的能力进行了探索,提出了GPT-1,当时它只是一个12层单向的Transformer,通过预训练+精调的方式进行训练;

但是,2018年10月,Google的BERT一出来,刷新了11项 NLP 任务的 SOTA,将GPT-1很快就踩在脚下。

接着,2019年2月,改进的GPT-2提出了meta-learning,把所有NLP任务的输入输出进行了整合,全部用文字来表示,其生成性能最强,但NLU领域仍不如BERT;

然后,2020年5月,GPT-3改进了BERT的两个缺点,1750亿的参数,使其性能变得吊炸天。

近期,2022年11月,ChatGPT的惊艳表现,标志着对话模型领域又向前跨出了一大步。

自此,大模型江湖厮杀仍在继续……

目录

单个模型逐个概述

NLP之LLMs:基于Transformer的三类基础架构及其代表性算法(BERT/RoBERTa/ALBERT/T5、GPT系列、XLNet/T-NLG)之详细攻略

NNLM模型的概述

NLP之NNLM:NNLM神经语言模型算法(词向量法的始祖)的简介、网络结构、案例应用、代码实现之详细攻略

Word2Vec模型的概述

NLP:word embedding词嵌入/word2vec词向量方法(一种主流的分布式表示)的简介、使用方法、案例应用之详细攻略

ELMO模型的概述

NLP之ELMO:ELMO模型的概述、结构(预训练过程、推理过程)之详细攻略

Attention的概述

DL之Attention:Attention注意力机制算法的起源与盛行及其在长距离有效的原因、概述(背景/本质/与ED框架关系/模型架构/优缺点/扩展,理解,本质,变种)、案例应用(CV/NLP)之详细攻略

DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略

Transformer的概述

NLP之Transformer:Transformer的简介(优缺点/架构详解,基于Transformer的系列架构对比分析)、使用方法(NLP领域/CV领域)、案例应用之详细攻略

GPT模型的概述—GPT系列(GPT-1/GPT-2/GPT-3)

NLP之GPT-1/GPT-2:GPT-1的概述(简介、原理、意义、结构、创新点、优缺点、数据集)、为何单向Transfo、模型结构、训练过程,GPT-2的概述(大数据、大模型、灵感点)之详细攻略

NLP之GPT-3:NLP领域没有最强,只有更强的模型—GPT-3的简介(本质、核心思想、意义、特点、优缺点、数据集、实际价值,模型强弱体现,开源探讨,GPT系列对比与总结)、安装、使用方法之详细攻略

AIGC:ChatGPT(一个里程碑式的对话聊天机器人)的简介(意义/功能/核心技术等)、使用方法(七类任务)、案例应用(提问基础性/事实性/逻辑性/创造性/开放性的问题以及编程相关)之详细攻略

BERT模型的概述

NLP之BERT:BERT的简介(背景、改进点、创新点、简介、意义、原理、优缺点、总结与评价)、模型结构、训练过程(MLM、NSP任务的概述)之详细攻略

多个大模型横向对比

ELMO、GPT、BERT对比

(1)、预测词的模型结构不同

(2)、BERT与Word2Vec→ELMO→GPT之间的图结构转换

NLP之LLMs:Transformer的六大核心技术点(ED/SA/MHA/PE/FNN/RC-LN)、两大划时代性模型(BERT模型对比GPT模型)、基于Transformer的三类基础架构及其代表性算法之详细攻略


单个模型逐个概述

NLP之LLMs:基于Transformer的三类基础架构及其代表性算法(BERT/RoBERTa/ALBERT/T5、GPT系列、XLNet/T-NLG)之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/131098969

NNLM

模型的概述

NLP之NNLM:NNLM神经语言模型算法(词向量法的始祖)的简介、网络结构、案例应用、代码实现之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/128795552

Word2Vec模型的概述

NLP:word embedding词嵌入/word2vec词向量方法(一种主流的分布式表示)的简介、使用方法、案例应用之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/128262908

ELMO模型的概述

NLP之ELMO:ELMO模型的概述、结构(预训练过程、推理过程)之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/128795366

Attention

的概述

DL之

Attention

Attention
注意力机制算法的起源与盛行及其在长距离有效的原因、概述(背景/本质/与ED框架关系/模型架构/优缺点/扩展,理解,本质,变种)、案例应用(CV/NLP)之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/83187158

DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/100108045

Transformer

的概述

NLP之Transformer:Transformer的简介(优缺点/架构详解,基于Transformer的系列架构对比分析)、使用方法(NLP领域/CV领域)、案例应用之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/123172991

GPT模型的概述—

GPT
系列(
GPT-
1/
GPT-
2/
GPT-
3)

NLP之

GPT-
1/
GPT-
2:
GPT-
1的概述
(简介、原理、意义、结构、创新点、优缺点、数据集)、为何单向Transfo

模型结构、训练过程

GPT-
2

概述(大数据、大模型、灵感点)
之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/80468713

NLP之GPT-3:NLP领域没有最强,只有更强的模型—GPT-3的简介(本质、核心思想、意义、特点、优缺点、数据集、实际价值,模型强弱体现,开源探讨,GPT系列对比与总结)、安装、使用方法之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/107897654

AIGC:ChatGPT(一个里程碑式的对话聊天机器人)的简介(意义/功能/核心技术等)、使用方法(七类任务)、案例应用(提问基础性/事实性/逻辑性/创造性/开放性的问题以及编程相关)之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/128229941

BERT模型的概述

NLP之BERT:BERT的简介(背景、改进点、创新点、简介、意义、原理、优缺点、总结与评价)、模型结构、训练过程(MLM、NSP任务的概述)之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/104987840

多个大模型横向对比

ELMO、GPT、BERT对比

(1)、预测词的模型结构不同
算法特征抽取器类型预测中间词的模型结构不同
ELMOLSTMELMO采用 双向 LSTM 结构 :因为各个LSTM结构之间是互相独立的,所以可以根据上下文预测中间词;
GPTTransformerGPT采用了 单向的 Transformer :GPT在做另一个任务:根据上文预测下一个单词时,要求Pre-Training预测下一个词时,只能够看见当前以及之前的词,这也使得GPT不得不放弃原本Transformer的双向结构,转而采用单向结构的原因。此举从而也就决定了GPT只能根据上文预测下一个单词;
BERTTransformerBERT采用了 双向 Transformer :所以并没有像GPT一样完全放弃下文信息。 BERT综合了ELMO的 双向 优势与GPT的Transformer的 特征提取 优势: >> 如果把ELMO的特征抽取器LSTM,换成Transformer→BERT >> 如果把GPT预训练阶段,换成双向语言模型→BERT
(2)、BERT与Word2Vec→ELMO→GPT之间的图结构转换

NLP之LLMs:Transformer的六大核心技术点(ED/SA/MHA/PE/FNN/RC-LN)、两大划时代性模型(BERT模型对比GPT模型)、基于Transformer的三类基础架构及其代表性算法之详细攻略

https://yunyaniu.blog.youkuaiyun.com/article/details/130652990

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值