NLP（十）Bert使用

最新推荐文章于 2025-05-24 18:46:27 发布

原创最新推荐文章于 2025-05-24 18:46:27 发布 · 1.9k 阅读

2 ·

CC 4.0 BY-SA版权

NLP 专栏收录该内容

10 篇文章

订阅专栏

博客主要围绕Bert展开，提到啃Bert原理和代码至少需一周。指出其源代码使用不易，但有大神做了pytorch高级封装，腾讯也有服务器封装版bert_as_service，还提醒Bert序列最大长度为512，调长可能报错，并给出参考链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bert

bert的原理+代码估计啃至少一个星期
本来bert的源代码要用起来挺不容易的，还好有大神写了个pytorch的高级封装
腾讯也有个服务器的封装版 bert_as_service
注：bert的序列最大长度是512，调长好像会报错

pip install fast-bert

from fast_bert.data import *
from fast_bert.learner import *
from pytorch_pretrained_bert.tokenization import BertTokenizer

# 关键的有三步
# 使用bert预训练模型转换词向量
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased", do_lower_case=True)
# batch数据接口
# label_cols: ['字符串1', '字符串2']
databunch = BertDataBunch(DATA_PATH, LABEL_PATH, tokenizer, train_file='train.csv', val_file='valid.csv',
                          test_data='test.csv', label_file="labels.csv",
                          text_col="comment_text", label_col=label_cols,
                          bs=512, maxlen=512, multi_gpu=False, multi_label=True)
# 创建模型模型
learner = BertLearner.from_pretrained_model(databunch, “bert-base-uncased“,  metrics, device, logger
                                            is_fp16=True, loss_scale=128, 
                                            multi_gpu=False,  multi_label=False)
# 4个并行任务
learner.fit(4, lr=0.001, schedule_type="warmup_linear")

参考链接:
https://github.com/wshuyi/demo-fastbert-multi-label-classification