使用HuggingFace Transformers进行PyTorch令牌分类任务详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00693/article/details/148323002

使用HuggingFace Transformers进行PyTorch令牌分类任务详解

transformers huggingface/transformers: 是一个基于 Python 的自然语言处理库，它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现，特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。项目地址: https://gitcode.com/gh_mirrors/tra/transformers

什么是令牌分类任务

令牌分类(Token Classification)是自然语言处理中的一项基础任务，它要求模型对文本中的每个令牌(token)进行分类。常见的令牌分类任务包括：

命名实体识别(NER)：识别文本中的人名、地名、组织机构名等
词性标注(POS)：标注每个词的词性(名词、动词等)
短语提取(CHUNKS)：识别文本中的短语结构

环境准备与数据格式

在使用HuggingFace Transformers进行令牌分类前，需要确保你的数据格式正确。脚本期望的JSON格式如下：

{
    "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0],
    "id": "0",
    "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
    "pos_tags": [12, 22, 22, 38, 15, 22, 28, 38, 15, 16, 21, 35, 24, 35, 37, 16, 21, 15, 24, 41, 15, 16, 21, 21, 20, 37, 40, 35, 21, 7],
    "tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British", "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."]
}

其中关键字段说明：

tokens: 文本分词后的结果
ner_tags: 每个token对应的命名实体标签
pos_tags: 每个token的词性标签
chunk_tags: 短语结构标签

使用Trainer API进行微调

HuggingFace提供了简单易用的Trainer API，可以快速微调预训练模型。以下是使用BERT在CoNLL-2003数据集上进行NER任务的示例命令：

python run_ner.py \
  --model_name_or_path google-bert/bert-base-uncased \
  --dataset_name conll2003 \
  --output_dir /tmp/test-ner \
  --do_train \
  --do_eval

参数说明：

model_name_or_path: 指定预训练模型
dataset_name: 使用的数据集名称
output_dir: 模型输出目录
do_train: 进行训练
do_eval: 进行评估

使用自定义数据

如果你的数据不是标准数据集，而是自定义文件，可以使用以下命令：

python run_ner.py \
  --model_name_or_path google-bert/bert-base-uncased \
  --train_file path_to_train_file \
  --validation_file path_to_validation_file \
  --output_dir /tmp/test-ner \
  --do_train \
  --do_eval

注意事项

快速分词器要求：脚本需要使用基于🤗 Tokenizers库的快速分词器。不是所有模型都支持，使用前请确认。
标签维度不匹配：如果模型分类头的维度与数据集的标签数量不匹配，可以添加--ignore_mismatched_sizes参数来自动调整。

不使用Trainer的版本

对于需要更多自定义控制的用户，HuggingFace还提供了不使用Trainer的脚本版本。这个版本暴露了完整的训练循环，允许你自由修改优化器、数据加载器等组件。

安装依赖

首先需要安装加速库：

pip install accelerate

基本使用示例

export TASK_NAME=ner

python run_ner_no_trainer.py \
  --model_name_or_path google-bert/bert-base-cased \
  --dataset_name conll2003 \
  --task_name $TASK_NAME \
  --max_length 128 \
  --per_device_train_batch_size 32 \
  --learning_rate 2e-5 \
  --num_train_epochs 3 \
  --output_dir /tmp/$TASK_NAME/

分布式训练配置

使用加速库可以轻松实现分布式训练：

首先配置训练环境：

accelerate config

测试配置：

accelerate test

启动训练：

export TASK_NAME=ner

accelerate launch run_ner_no_trainer.py \
  --model_name_or_path google-bert/bert-base-cased \
  --dataset_name conll2003 \
  --task_name $TASK_NAME \
  --max_length 128 \
  --per_device_train_batch_size 32 \
  --learning_rate 2e-5 \
  --num_train_epochs 3 \
  --output_dir /tmp/$TASK_NAME/