pytorch-bert 调用预训练模型或自训模型 进行预测(可批量)

本文介绍如何使用预训练的BERT模型进行文本分类任务的预测,包括单个文本对的预测及批量预测的方法。提供了详细的代码实现步骤,从模型加载到数据预处理再到最终的预测输出。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

调用训练好的模型批量预测


参考: https://huggingface.co/docs/transformers/v4.15.0/en/main_classes/output

单个预测

#载入训练好的模型
import numpy as np
import torch 
from transformers import BertTokenizer, BertConfig, BertForSequenceClassification

#加载训练好的模型
model_name = 'bert-base-chinese'
MODEL_PATH = 'your_model_path'

# tokenizer.encode_plus返回多句子在字典中的id,tokenizer.tokenize返回token
# [CLS]的id为101,[SEP]的id为102
# tokenizer.tokenize()为分词器

# a. 通过词典导入分词器
tokenizer = BertTokenizer.from_pretrained(model_name)
# b. 导入配置文件
model_config = BertConfig.from_pretrained(model_name)
# 修改配置
model_config.output_hidden_states = True
model_config.output_attentions = True
# 通过配置和路径导入模型
model = BertForSequenceClassification.from_pretrained(MODEL_PATH, config = model_config)


# 读取预训练模型
print("加载模型")
model.eval()
print("模型加载完成,开始预测")


# 第一种encode方式,及对应的预测
encoding = tokenizer('王小二', '王小二可是个好人呐', return_tensors='pt')
print(encoding)

labels = torch.tensor([1]).unsqueeze(0)  # Batch size 1
outputs = model(**encoding, labels=labels)
logits = outputs.logits
# assert logits[0, 0] < logits[0, 1] 
print(logits)
sample = logits.detach().numpy()
pred = np.argmax(sample, axis=1)
print(pred)

#第二种预测方式,及对应的预测
sen_code = tokenizer.encode_plus(
    '王小二', 
    '王小二可是个好人呐',
    add_special_tokens=True,
    max_length=128,
    pad_to_max_length=True,
    padding="max_length",
    return_tensors='pt'
)
sen_code2 = tokenizer.encode_plus(
    '好人', 
    '王小二可不是个好人呐',
    add_special_tokens=True,
    max_length=128,
    pad_to_max_length=True,
    padding="max_length"
)
print(sen_code)
# tokens_tensor = torch.tensor([sen_code])  
# print(tokens_tensor)


outputs = model(**sen_code,labels=labels)
print(outputs.logits)
seq_relationship_scores = outputs.logits             # seq_relationship_scores.shape: torch.Size([class_name, n]),n为句子对数量,输出为每个类别的预测结果
sample = seq_relationship_scores.detach().numpy() # sample.shape: [class_name, n]
pred = np.argmax(sample, axis=1)
print(pred)   # 预测结果

批量预测

参考:https://github.com/beyondguo/Learn_PyTorch/blob/master/HuggingfaceNLP/C2.%20Fine-tuning%20Transformers/3.%20%E7%94%A8%E7%BA%AFPyTorch%E6%9D%A5fine-tune.ipynb

#基于训练好的模型进行预测
from torch.utils.data import DataLoader, Dataset
from datasets import load_dataset
from accelerate import Accelerator
from transformers import DataCollatorWithPadding,default_data_collator
accelerator = Accelerator()
import time


def preprocess_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"], truncation=True)

def dataset_predict():
    data_files={"test": your_file_path}
    raw_datasets=load_dataset("csv", data_files=data_files)
#     print(raw_datasets['test'][:2])

    starttime = time.time()
    

    processed_datasets = raw_datasets.map(preprocess_function, batched=True)
    data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

    # print(processed_datasets['test'].column_names)
    processed_datasets = processed_datasets.remove_columns(['sentence1', 'sentence2'])
    processed_datasets.set_format('torch')
#     print(processed_datasets['test'].column_names)
#     print(processed_datasets['test'][:2])

    test_dataloader = DataLoader(processed_datasets['test'], batch_size=8, collate_fn=data_collator)
    flag=0
    for batch in test_dataloader:
        if(flag==0):
            print(batch)
            flag=1
        outputs=model(**batch) 
        predictions = outputs.logits.argmax(dim=-1)
        print(predictions)
    endtime = time.time()    
    print ("times:"+str((endtime - starttime)))    

def multi_sen_predict():
    sen1=["中国","外国"]
    sen2=["我是中国人","他是外国人"]
    data=tokenizer(sen1, sen2, truncation=True)#dict里存放的是list,要转成tensor格式
    print(data) 
    for i in data:
        data[i]=torch.LongTensor(data[i])
    print(data)
    outputs=model(**data) 
    predictions = outputs.logits.argmax(dim=-1)
    print(predictions)
if __name__ == "__main__":
	dataset_predict()
    multi_sen_predict()  
### 如何对 `bert-base-chinese` 模型进行微调练及部署 #### 一、模型概述 `bert-base-chinese` 是专为中文设计的预训练语言模型,其架构基于 BERT 并经过大量中文语料的预训练。它通过遮蔽语言模型 (MLM) 和下一个句子预测 (NSP) 进行练,在多种自然语言处理任务上表现出色[^3]。 --- #### 二、环境准备 为了完成微调和部署工作,需先安装必要的依赖库并配置运行环境: 1. **PyTorch TensorFlow**:作为深度学习框架支持。 2. **Transformers 库**:由 Hugging Face 提供,用于加载预训练模型及其权重。 3. 数据集:如 THUCNews 中文数据集其他适用的数据源[^2]。 以下是 Python 环境初始化代码示例: ```bash pip install torch transformers datasets scikit-learn ``` --- #### 三、微调练流程 ##### 1. 加载预训练模型 利用 Transformers 库中的 `AutoTokenizer` 和 `AutoModelForSequenceClassification` 类来加载 `bert-base-chinese` 及其对应的分词器。 ```python from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese") model = AutoModelForSequenceClassification.from_pretrained("bert-base-chinese", num_labels=10) ``` 上述代码片段中,假设目标是一个多分类问题(例如新闻类别),因此设置参数 `num_labels=10` 表明有十个可能的标签。 ##### 2. 准备数据集 对于具体应用场景,比如文本分类任务,可采用如下方式读取和预处理数据: ```python from datasets import load_dataset dataset = load_dataset('thucnews', split='train[:1%]') def preprocess_function(examples): return tokenizer(examples['text'], truncation=True, padding="max_length") tokenized_datasets = dataset.map(preprocess_function, batched=True) ``` 这里以 THUCNews 数据为例,仅选取前 1% 的样本以便快速测试;实际操作可根据硬件资源调整比例。 ##### 3. 定义练参数与启动练 创建 Trainer 对象指定优化策略和其他超参设定后即可执行练过程: ```python from transformers import TrainingArguments, Trainer training_args = TrainingArguments( output_dir="./results", evaluation_strategy="epoch", learning_rate=2e-5, per_device_train_batch_size=8, per_device_eval_batch_size=8, num_train_epochs=3, weight_decay=0.01, ) trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["test"] ) trainer.train() ``` 此部分定义了一个简单的练循环,其中包含了评估频率、批量大小等重要选项。 --- #### 四、模型保存与导出 当练结束后,可以通过以下方法保存已更新过的模型文件至本地路径下: ```python model.save_pretrained("./fine_tuned_bert_base_chinese") tokenizer.save_pretrained("./fine_tuned_bert_base_chinese") ``` 这些命令会分别存储修改后的模型权重以及相应的词汇表信息到指定目录里。 --- #### 五、模型部署方案 完成微调之后,可以选择不同的方式进行服务化发布: 1. **REST API 接口** 使用 Flask/Django 构建 Web Server 来接收请求并将输入传递给 Transformer Pipeline 处理后再返回结果。 2. **ONNX 转换** 将 PyTorch/TensorFlow 格式的模型转换成 ONNX 文件形式从而兼容更多平台上的推理引擎。 3. **HuggingFace Model Hub 发布** 把最终版本上传到官方 Models Repository 方便他人重复实验者直接在线调用API接口访问。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值