命名实体识别(NER)文本分词及模型优化
1. 文本分词
在确定分词器和模型能够对单个示例进行编码后,下一步是对整个数据集进行分词,以便将其传递给 XLM - R 模型进行微调。可以使用 Datasets 的 map() 操作来快速对 Dataset 对象进行分词。
1.1 定义分词函数
首先,需要定义一个函数,其最小签名如下:
function(examples: Dict[str, List]) -> Dict[str, List]
其中, examples 相当于 Dataset 的一个切片,例如 panx_de['train'][:10] 。
1.2 单个示例分词
以一个德语示例为例,展示分词过程:
words, labels = de_example["tokens"], de_example["ner_tags"]
tokenized_input = xlmr_tokenizer(de_example["tokens"], is_split_into_words=True)
tokens = xlmr_tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])
<
超级会员免费看
订阅专栏 解锁全文
453

被折叠的 条评论
为什么被折叠?



