‘BertTokenizer‘ has no len() additional_special_tokens add_tokens

最新推荐文章于 2025-04-04 10:56:12 发布

CxFt

最新推荐文章于 2025-04-04 10:56:12 发布

阅读量482

点赞数

分类专栏： NLP 文章标签： pytorch 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_43499457/article/details/124685553

版权

NLP 同时被 2 个专栏收录

19 篇文章

订阅专栏

Bugs

16 篇文章

订阅专栏

增加special token的时候一直报错
additional_special_tokens也不行，add_tokens也不行，len和vocab_size也不行
后来发现是旧版本pytorch_pretrained_bert的问题：
原来：

from pytorch_pretrained_bert import BertAdam
tokenizer = BertTokenizer(vocab_file=args.tokenizer_path)

改为：

from transformersimport BertAdam
tokenizer = BertTokenizer.from_pretrained(pretrain_path, additional_special_tokens=['##char##'])

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CxFt

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

LLM-项目详解（一）：Chinese-LLaMA-Alpaca【transformers/models/llama/modeling_llama.py文件】

u013250861的博客

08-14

533

【代码】LLM-项目详解（一）：Chinese-LLaMA-Alpaca【modeling_llama.py文件】

TP、PP、DP、集群GPU卡数、grad_accum_steps之间关系【DP=集群中GPU卡总数world_size/(TP*PP)】【grad_accum_steps=gbz/(mbz*DP)】

u013250861的博客

03-24

968

【代码】TP、PP、DP、grad_accum_steps之间关系【DP=集群中GPU卡总数world_size/(TP*PP)】

参与评论您还未登录，请先登录后发表或查看评论

【Pytorch】添加自己的special_token

nghhfgh的博客

03-28

1556

起因是我想对我的label利用Bert进行encode，但我发现在分词的时候，由于label的特殊性，总会被分成“##401”、“.”、“7”，而不是“401.7”，所以查了一些资料，搞出来了。今天天气好好~☀。

提示学习，transformers/bert中处理模板 additional-special-tokens

znsoft的专栏

05-18

845

我们在提示学习或其它方式中经常需要对模板中的占位符，如 This is a demon, [X], it was a [MASK] 中的[X]进行替换并需要在随后的处理中取出它对应的向量。此时，我们需要知道[X]所在的postion, 即偏移才可以正常处理。在transformers中，这个位置真的不好推测，需要用transformers的tokenizer api进行处理。怎么办？看代码： temp 为模板，比如 it was a [X] news. labels是要替换的具体词..

修复AttributeError: BertTokenizerFast has no attribute pad_token

热门推荐

icestorm_rain的博客

09-11

1万+

向BERT词汇表中添加新词汇，新token

【AttributeError】Tokenizer: ‘tokenizers.AddedToken‘ object has no attribute ‘special‘

懒惰是科技进步的原始动力

03-19

927

tokenizers版本太低。

transformer.config/tokenizer/model

weixin_42043940的博客

08-15

7187

transformers 框架主要有三个类model 类、configuration 类、tokenizer 类，这三个类，所有相关的类都衍生自这三个类，他们都有 from_pretained() 方法和 save_pretrained() 方法。 Config类 PretrainedConfig 是其它所有 Config类的基类，它实现了用于从本地文件或目录或库提供的预训练模型配置（从HuggingFace的AWS S3存储库下载）中加载/保存配置的常用方法。 Signature class trans

python nltk工具_如何使用自然语言工具包（NLTK）在Python 3中执行情感分析

08-13

2184

python nltk工具The author selected the Open Internet/Free Speech fund to receive a donation as part of the Write for DOnations program. 作者选择了“ 开放互联网/言论自由”基金来接受捐赠，这是“ 为捐赠写信”计划的一部分。介绍 (Introduction) ...

书生·浦语大模型实战营之微调 Llama 3 实践与教程（XTuner 版）

段智华的博客

04-22

351

书生·浦语大模型实战营之微调 Llama 3 实践与教程（XTuner 版）Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，XTuner 团队对 Llama 3 微调进行了光速支持！！！开源同时社区中涌现了 Llama3-XTuner-CN 手把手教大家使用 XTuner 微调 Llama 3 模型。

使用huggingface中transformers的字典和tokenizer

MyHeartWillGoOn

02-10

3070

文章目录题目步骤普通的编码函数增强的编码函数批量处理句子批量成对编码字典操作题目使用huggingface中transformers的字典和tokenizer 步骤 step1 pip install transformers step2 加载分词器 from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained( # 传递模型名称 pretrained_model_name_or_p

BERT使用过程中添加special tokens

weixin_43301333的博客

12-23

9369

【Python】解决Python报错：AttributeError: ‘method‘ object has no attribute ‘xxx‘

科技改变人类，技术成就未来

05-31

1127

解决Python报错：AttributeError: 'method' object has no attribute 'xxx'

LLMs之llama3-from-scratch：llama3-from-scratch(从头开始利用pytorch来实现并解读LLaMA-3模型的每层代码)的简介、核心思路梳理

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

05-21

5104

LLMs之llama3-from-scratch：llama3-from-scratch(从头开始利用pytorch来实现并解读LLaMA-3模型)的简介、核心思路梳理目录 llama3-from-scratch的简介 llama3-from-scratch的核心思路梳理 llama3-from-scratch的简介 2024年5月20日，Nishant Aklecha正式发布了该项目，在这个文件中

d2l版本问题，AttributeError

weixin_51728965的博客

03-19

553

构建自己模型的Tokenizer

Edward__J的博客

09-23

818

要自定义Tokenizer肯定是要有个父类的，如果用PretrainedTokenizer的话，里面的方法比如，vocab_size，get_vocab, _tokenize，_convert_token_to_id，_convert_id_to_token等几个关键的方法是需要根据自己的要求自定义的，其他的Tokenizer其实也是这么重写然后实现的，比如T5Tokenizer，可以去借鉴他们的写法然后改成自己的。因为我们的任务比较简单，我们可以继承T5Tokenizer，只重写里面的部分方法。

大模型微调之添加special_token改变词表大小并进行微调方法——以llama3为例

huijigo的博客

05-16

6263

llama-3-8B-Instruct是llama3的一个专门在指令微调上进行预训练的一个模型。加载模型和tokenizer128256可以看到词表的大小和embeding以及lm_head的关系接下来我们需要扩充词表。扩充词表有两种，请一定要注意！！！一种是添加special_token，比如pad_token，另一种是添加普通的token。这篇博客聚焦于add_special_tokens函数。

Transformer模型添加新的[token]

笔记

02-08

2806

huggingface transformer 如何添加自定义[token], 亲测有效！

bert-base-chinese的special_tokens_map

01-27

### 关于 `bert-base-chinese` 特殊令牌映射对于 `bert-base-chinese` 模型而言，特殊令牌映射（special tokens map）通常定义在配置文件 `config.json` 中。这些特殊令牌用于标记序列中的特定部分或位置，在处理文本时起到重要作用。 #### Special Tokens Map 文件内容及说明以下是典型的 `special_tokens_map.json` 文件的内容及其解释： ```json { "bos_token": "[CLS]", "eos_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "sep_token": "[SEP]", "mask_token": "[MASK]" } ``` - **bos_token (Begin of Sentence Token)**: 表示句子的开始，默认为 `[CLS]`。 - **eos_token (End of Sentence Token)**: 表示句子的结束，默认为 `[SEP]`。 - **pad_token**: 用来填充输入序列至固定长度，默认为 `[PAD]`。 - **cls_token**: 位于每个输入序列的第一个位置，代表整个句子的分类信息，默认为 `[CLS]`。 - **sep_token**: 分隔不同句子或片段，默认为 `[SEP]`。 - **mask_token**: 用于遮蔽某些单词以便模型学习预测缺失词，默认为 `[MASK]`[^1]。需要注意的是，上述 JSON 结构并非实际存在于单独的文件中；而是通过 Hugging Face 的 Transformers 库自动识别并应用到相应的 BERT 模型实例上。当加载 `bert-base-chinese` 模型时，库会读取其对应的配置来设置这些特殊的令牌。为了查看具体的特殊令牌映射，可以使用如下 Python 代码获取已加载 tokenizer 实例中的特殊令牌信息： ```python from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') print(tokenizer.special_tokens_map) ``` 这段代码将会打印出类似于上面提到的那个字典结构，展示当前使用的 `bert-base-chinese` 模型所支持的所有特殊令牌名称与其对应的实际 token 值。