一起学Hugging Face Transformers（3） - Hugging Face 加载模型和Tokenizer

本文链接：https://blog.youkuaiyun.com/kljyrx/article/details/140020304

前言

Hugging Face提供了一个强大的Transformers库，方便用户加载和使用预训练的自然语言处理模型及其相应的Tokenizer。本文将介绍如何加载预训练模型和Tokenizer，使用AutoModel和AutoTokenizer，以及了解不同模型的输入和输出格式，并举两个具体的例子进行说明。

一、加载预训练模型和Tokenizer

Hugging Face的Transformers库中包含了多种预训练模型和Tokenizer，可以用于各种自然语言处理任务。加载预训练模型和Tokenizer非常简单，以下是基本步骤：

1. 安装Transformers库

首先，确保你已经安装了Transformers库。如果尚未安装，可以使用以下命令进行安装：

pip install transformers

2. 加载预训练模型和Tokenizer

使用Transformers库，你可以非常方便地加载预训练模型和对应的Tokenizer。例如，加载BERT模型和Tokenizer可以使用以下代码：

from transformers import BertModel, BertTokenizer

# 加载预训练的BERT模型和Tokenizer
model_name = "bert-base-uncased"
model = BertModel.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)

二、使用AutoModel和AutoTokenizer

为了更具通用性，Hugging Face提供了AutoModel和AutoTokenizer类。这些类可以自动根据模型名称加载合适的模型和Tokenizer，不需要指定具体的模型类。

1. 使用AutoModel和AutoTokenizer

使用AutoModel和AutoTokenizer可以使代码更加简洁和通用。例如：

from transformers import AutoModel, AutoTokenizer

# 使用AutoModel和AutoTokenizer加载预训练模型和Tokenizer
model_name = "bert-base-uncased"
model = AutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

2. 原理

Hugging Face 的 AutoModel 和 AutoTokenizer 是通过读取模型的配置文件来自动确定要加载的具体模型和分词器类型。这种设计使得代码更具通用性和灵活性，因为你不需要显式指定具体的模型或分词器类型，只需提供模型名称即可。以下是详细解释。

1）配置文件 (`config.json`)

每个预训练模型都有一个配置文件 (config.json)，其中包含了模型的架构和其他重要信息。这个文件可以在Hugging Face的模型库中找到。例如，BERT模型的配置文件可能包含以下内容：

{
  "architectures": [
    "BertModel"
  ],
  "hidden_size": 768,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  ...
}

2）使用AutoModel

当你使用AutoModel时，库会读取模型的配置文件，并根据文件中的信息加载相应的模型类。例如：

from transformers import AutoModel

model_name = "bert-base-uncased"
model = AutoModel.from_pretrained(model_name)

在这个例子中，AutoModel会读取bert-base-uncased模型的配置文件，发现它的架构是BertModel，于是加载BertModel类。

3）使用AutoTokenizer

AutoTokenizer的工作原理类似，它会读取分词器的配置文件，并根据文件中的信息加载相应的分词器类。例如：

from transformers import AutoTokenizer

tokenizer_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)

在这个例子中，AutoTokenizer会读取bert-base-uncased模型的配置文件，并加载相应的BertTokenizer类。

三、不同模型的输入和输出格式

不同的模型可能具有不同的输入和输出格式。下面通过两个具体的例子来说明。

1. BERT模型

BERT（Bidirectional Encoder Representations from Transformers）是一个广泛使用的预训练模型，适用于各种NLP任务。

1) 输入格式

BERT模型的输入通常是一个包含token IDs、attention mask和token type IDs的字典：

inputs = tokenizer("Hello, Hugging Face!", return_tensors="pt")
# inputs: {'input_ids': tensor([[ 101, 7592, 1010, 17662, 2128,  999,  102]]), 
#          'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1]])}

2) 输出格式

BERT模型的输出是一个包含隐藏状态的字典，隐藏状态是模型各层的输出：

outputs = model(**inputs)
# outputs: {'last_hidden_state': tensor(...), 'pooler_output': tensor(...)}

2. GPT-2模型

GPT-2（Generative Pre-trained Transformer 2）是另一个常用的预训练模型，主要用于生成任务。

1) 输入格式

GPT-2模型的输入也是token IDs和attention mask的字典，但不需要token type IDs：

inputs = tokenizer("Hello, Hugging Face!", return_tensors="pt")
# inputs: {'input_ids': tensor([[15496,    11, 40256, 12888,    33]]), 
#          'attention_mask': tensor([[1, 1, 1, 1, 1]])}

2) 输出格式

GPT-2模型的输出是一个包含logits的字典，logits是生成下一个token的概率分布：

outputs = model(**inputs)
# outputs: {'logits': tensor(...)}

通过以上示例，我们可以看到不同模型的输入和输出格式各不相同，了解这些差异有助于我们更好地应用这些模型进行各种NLP任务。

四、使用本地路径加载模型和Tokenizer

在Hugging Face 的 Transformers 库中，model_name 参数不仅可以接受预训练模型的名称，还可以接受本地模型的路径。如果你已经在本地保存了一个模型，可以通过提供模型文件所在的目录路径来加载模型和分词器。

1. 保存模型和分词器

假设你已经将模型和分词器保存到了本地，可以使用以下代码来保存它们：

from transformers import AutoModel, AutoTokenizer

model_name = "bert-base-uncased"

# 加载预训练模型和分词器
model = AutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 保存模型和分词器到本地
model.save_pretrained("./my_local_model")
tokenizer.save_pretrained("./my_local_model")

2. 从本地路径加载模型和分词器

你可以通过提供保存模型和分词器的本地路径来加载它们。例如：

from transformers import AutoModel, AutoTokenizer

# 使用本地路径加载模型和分词器
local_model_path = "./my_local_model"
model = AutoModel.from_pretrained(local_model_path)
tokenizer = AutoTokenizer.from_pretrained(local_model_path)

# 测试分词
inputs = tokenizer("Hello, Hugging Face!", return_tensors="pt")
print(inputs)

# 测试模型
outputs = model(**inputs)
print(outputs)