
transformers-bert
znsoft
人工智能博士/教授级高级工程师/博士研究生导师
展开
-
提示学习,transformers/bert中处理 模板 additional-special-tokens
我们在提示学习或其它方式中经常需要对模板中的占位符,如 This is a demon, [X], it was a [MASK] 中的[X]进行替换并需要在随后的处理中取出它对应的向量。此时,我们需要知道[X]所在的postion, 即偏移才可以正常处理。在transformers中,这个位置 真的不好推测 ,需要用transformers的tokenizer api进行处理。怎么办?看代码:temp 为模板,比如 it was a [X] news. labels是要替换的具体词..原创 2022-05-18 09:32:41 · 835 阅读 · 0 评论 -
BertTokenizer的offset_mapping
在以下代码中,当我们把 add_special_tokens设置为True时,会添加[cls] [sep]等标签,有时一个符号会被token化为多个token, 此时我们很难将这引起token和原文中的词对上。加入 return_offsets_mapping=True 参数将会在输出中多一个项: offset_mapping, 让我们了解token化后的token 位置和原文的关系,是不是很方便?经常见到其它程序员自己写很多代码实现这个功能,事实上原始bert中就有实现,是不是很方便?outp原创 2022-04-20 10:24:00 · 5352 阅读 · 0 评论