- 博客(1)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 大模型参数量及其单位的概念
RoBERTa-Base模型的参数量比BERT-Base模型的参数量稍多一些,这是因为RoBERTa引入了一些额外的层和参数,比如用于动态调整模型输入的句子顺序的“动态遮蔽”(dynamic masking)策略。- 999个特殊的token,如 `[UNK]`(未知词)、`[PAD]`(填充)、`[CLS]`(分类任务的句子开始标志)、`[SEP]`(序列分隔符)、`[MASK]`(掩码,用于遮蔽语言模型任务):表示十亿(Billion)。同样地,在模型参数量的上下文中,"B"指的是十亿个参数。
2024-07-21 10:04:37
2956
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人