Datawhale NLP课程 Task6

该博客探讨了序列标注任务,如NER、POS和Chunking,它们是token级别的分类问题。通过预处理,使用Tokenizer将数据转化为模型输入。接着,使用预训练模型进行微调,特别是AutoModelForTokenClassification类适用于seq2seq任务。提供的代码资源可以帮助读者熟悉相关流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

序列标注 (token级的分类问题)

序列标注,通常也可以看作是token级别的分类问题:对每一个token进行分类。

最常见的token级的分类任务

  • NER (Named-entity recognition 名词-实体识别) 分辨出文本中的名词和实体 (person人名, organization组织机构名, location地点名…).
  • POS (Part-of-speech tagging词性标注) 根据语法对token进行词性标注 (noun名词, verb动词, adjective形容词…)
  • Chunk (Chunking短语组块) 将同一个短语的tokens组块放在一起。

预处理数据

在将数据喂入模型之前,我们需要对数据进行预处理。预处理的工具叫Tokenizer。Tokenizer首先对输入进行tokenize,然后将tokens转化为预模型中需要对应的token ID,再转化为模型需要的输入格式。

微调预训练模型

既然数据已经准备好了,现在我们需要下载并加载我们的预训练模型,然后微调预训练模型。既然我们是做seq2seq任务,那么我们需要一个能解决这个任务的模型类。我们使用AutoModelForTokenClassification 这个类
本次主要是熟悉代码。 代码见https://github.com/datawhalechina/Learn-NLP-with-Transformers。

Reference

https://github.com/datawhalechina/Learn-NLP-with-Transformers

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值