【学习总结】Python transformers AutoTokenizer encode 出现的 101 和 102_tokenizer 101(1)

最新推荐文章于 2025-07-15 12:09:01 发布

原创最新推荐文章于 2025-07-15 12:09:01 发布 · 687 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #学习 #开发语言

2024年程序员学习专栏收录该内容

300 篇文章

订阅专栏

这篇博客通过实例展示了Python transformers库中AutoTokenizer的工作原理，包括如何编码文本，使用encode方法添加特殊标记101和102，以及如何处理多个序列。还探讨了如何解码生成的ID，以及在批处理中的应用。博主分享了自己的学习和工作经验，并提供了全面的Python开发学习资料。

print(tokens)

token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(token_ids)

token_ids_s2e = tokenizer.encode(sequence)
print(token_ids_s2e)


输出结果：

21128
3791
[‘法’, ‘国’, ‘的’, ‘首’, ‘都’, ‘是’, ‘巴’, ‘黎’]
[3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944]
[101, 3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944, 102]


token\_ids\_s2e 中多了 101 和 102

sequence1 = tokenizer.decode(token_ids)
print(sequence1)

sequence2 = tokenizer.decode(token_ids_s2e)
print(sequence2)


输出结果：

法国的首都是巴黎
[CLS] 法国的首都是巴黎 [SEP]


101 代表 CLS，是文本的开头  
 102 代表 SEP，是文本的分隔符


## 2. 编解码多段文本

sequence_batch = [“法国的首都是巴黎”,“美国的首都是华盛顿特区” ]
token_ids_batch = tokenizer.encode(sequence_batch)
print(token_ids_batch)
sequence_batch = tokenizer.decode(token_ids_batch)
print(sequence_batch)


输出结果：

[101, 3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944, 102, 5401, 1744, 4638, 7674, 6963, 3221, 1290, 4670, 7561, 4294, 1277, 102]
[CLS] 法国的首都是巴黎 [SEP] 美国的首都是华盛顿特区 [SEP]


## 3. 实际操作

embedding_batch = tokenizer(“法国的首都是巴黎”,“美国的首都是华盛顿特区”)
print(embedding_batch)


输出：

{‘input_ids’: [101, 3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944, 102, 5401, 1744, 4638, 7674, 6963, 3221, 1290, 4670, 7561, 4294, 1277, 102], ‘token_type_ids’: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], ‘attention_mask’: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}