【nlp】4.3 nlp中常用的预训练模型（BERT及其变体）

lys_828

已于 2023-11-26 21:17:26 修改

阅读量1.3k

点赞数 16

CC 4.0 BY-SA版权

分类专栏： NLP自然语言处理文章标签：自然语言处理 bert 人工智能

于 2023-11-26 15:26:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/lys_828/article/details/134628287

NLP自然语言处理专栏收录该内容

30 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了当下自然语言处理中流行的预训练模型，重点关注BERT的各种变体，如bert-base-uncased、bert-large-cased等，以及其他模型如GPT、GPT-2、XLNet等，探讨了它们的结构特点和应用场景。

nlp中常用的预训练模型

1 当下NLP中流行的预训练模型¶
2 预训练模型说明¶
3 预训练模型的分类

1 当下NLP中流行的预训练模型¶

BERT
GPT
GPT-2
Transformer-XL
XLNet
XLM
RoBERTa
DistilBERT
ALBERT
T5
XLM-RoBERTa

1.1 BERT及其变体

bert-base-uncased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在小写的英文文本上进行训练而得到.
bert-large-uncased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在小写的英文文本上进行训练而得到.
bert-base-cased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在不区分大小写的英文文本上进行训练而得到.
bert-large-cased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在不区分大小写的英文文本上进行训练而得到.
bert-base-multilingual-uncased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在小写的102种语言文本上进行训练而得到.
bert-large-m

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lys_828 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。