tokenizer函数的参数truncation=True是什么意思

当tokenizer的truncation参数设为True时,超出max_length的输入文本会按规则截断,优先保留特殊标记和词间关系,例如,输入这是我去北京游玩的一段经历,max_length=10,结果会是这是我去[TRUNC]。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在 tokenizer 函数中,truncation=True 的意思是允许截断。当我们使用 tokenizer 处理输入文本时,如果输入文本的长度超过我们设定的 max_length,那么就需要进行截断。如果 truncation=True,那么 tokenizer 会根据几个规则进行截断:1. 首先删除输入序列的中间部分,只保留前后 max_length/2 的标记。2. 然后继续删除前面或后面的标记,直到保留的标记数量等于 max_length。3. 在截断的过程中,tokenizer 会尽量保留输入序列的结构,不截断词与词之间的关系。4. 若输入序列中包含特殊标记(如 [SEP] 或 [CLS] 等),那么这些特殊标记会被优先保留。5. 截断 always_truncate 的标记后会添加 [TRUNC] 标记。举个例子,如果我们有输入文本:

这是我去北京游玩的一段经历 

并使用 max_length=10, truncation=True 进行处理,那么结果会是:

这是我去[TRUNC] 

因为 tokenizer 会优先保留中英文词与词之间的关系,所以 went 被截断,并添加 [TRUNC] 标记。所以,truncation=True 的作用就是允许我们的 tokenizer 进行这样的截断操作,这样我们就可以将任意长度的输入文本处理成我们想要的长度了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

irrationality

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值