Bert中文预训练模型（Bert-base-chinese）

最新推荐文章于 2025-04-14 16:53:47 发布

好好学习Py

最新推荐文章于 2025-04-14 16:53:47 发布

阅读量4.6k

点赞数 16

分类专栏：自然语言处理文章标签： bert 人工智能深度学习 pytorch python 自然语言处理

本文链接：https://blog.youkuaiyun.com/weixin_74254879/article/details/140441514

版权

介绍

Bert-base-chinese模型是一个在简体和繁体中文文本上训练得到的预训练模型，具有以下特点：

12个隐层
输出768维张量
12个自注意力头
110M参数量

该模型的主要作用是获取每个汉字的向量表示，后续通过微调可应用于各种简体和繁体中文任务。

使用

import torch
from transformers import BertTokenizer, BertModel

# 第一步：离线下载
# from transformers import BertModel, BertTokenizer
# model_name = "bert-base-chinese"
# # 下载模型和分词器
# model = BertModel.from_pretrained(model_name)
# tokenizer = BertTokenizer.from_pretrained(model_name)
# # 保存模型和分词器到本地路径
# model.save_pretrained("./bert-base-chinese")
# tokenizer.save_pretrained("./bert-base-chinese")

# 第二步：加载模型和分词器
model_path = "./bert-base-chinese"
tokenizer = BertTokenizer.from_pretrained(model_path)
model = BertModel.from_pretrained(model_path)


def encode_text_with_bert(text):
    """
    使用bert-base-chinese模型对文本进行编码
    :param text: 输入的文本