使用预训练的BERT模型解决文本二分类和关键词提取

qq_42859625

已于 2023-07-27 11:13:06 修改

阅读量5.9k

点赞数 35

分类专栏：深度学习文章标签：深度学习自然语言处理 bert

于 2023-07-27 11:12:02 首次发布

本文链接：https://blog.youkuaiyun.com/qq_42859625/article/details/131955775

版权

本文介绍了如何使用预训练的BERT模型解决文本二分类问题和关键词提取。首先，通过加载数据集、预处理、构建dataloader与dataset进行文本分类，包括模型定义、训练和验证。然后，详细阐述了利用BERT模型进行关键词提取的过程，涉及数据处理、模型加载和相似度计算。这两种方法结合BERT的语义表示能力，能有效提升任务的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一. 使用预训练的BERT模型解决文本二分类问题

1. 导入相关的包

import os
import pandas as pd
import torch
from torch import nn
from torch.utils.data import Dataset, DataLoader
# 用于加载bert模型的分词器
from transformers import AutoTokenizer
# 用于加载bert模型
from transformers import BertModel
from pathlib import Path

2. 定义相关参数

batch_size = 16
# 文本的最大长度
text_max_length = 128
# 总训练的epochs数，我只是随便定义了个数
epochs = 100
# 学习率
lr = 3e-5
# 取多少训练集的数据作为验证集
validation_ratio = 0.1
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 每多少步，打印一次loss
log_per_step = 50

# 数据集所在位置
dataset_dir = Path("./基于论文摘要的文本分类与关键词抽取挑战赛公开数据")
os.makedirs(dataset_dir) if not os.path.exists(dataset_dir) else ''

# 模型存储路径
model_dir = Path("./model/bert_checkpoints")
# 如果模型目录不存在，则创建一个
os.makedirs(model_dir) if not os.path.exists(model_dir) else ''

print("Device:", device)

3. 进行数据读取与数据预处理

文本分类需要数据来训练模型，所以先读取数据集并进行预处理。这里我加载了训练集和验证集的CSV文件，主要进行了以下处理:

填充空值
拼接标题、作者、摘要等字段得到文本内容
从训练集中采样部分数据作为验证集

先查看一下当前所在路径
%pwd

然后，读取数据集，进行数据处理

pd_train_data = pd.read_csv('../../原始数据/train.csv')
pd_train_data['title'] = pd_train_data['title'].fillna('')
pd_train_data['abstract'] = pd_train_data['abstract'].fillna('')

test_data = pd.read_csv('../../原始数据/testB.csv')
test_data['title'] = test_data['title'].fillna('')
test_data['abstract'] = test_data['abstract'].fillna('')
pd_train_data['text'] = pd_train_data['title'].fillna('') + ' ' +  pd_train_data['author'].fillna('') + ' ' + pd_train_data['abstract'].fillna('')+ ' ' + pd_train_data['Keywords'].fillna('')
test_data['text'] = test_data['title'].fillna('') + ' ' +  test_data['author'].fillna('') + ' ' + test_data['abstract'].fillna('')+ ' ' + pd_train_data['Keywords'].fillna('')