NLP(十)Bert使用

博客主要围绕Bert展开,提到啃Bert原理和代码至少需一周。指出其源代码使用不易,但有大神做了pytorch高级封装,腾讯也有服务器封装版bert_as_service,还提醒Bert序列最大长度为512,调长可能报错,并给出参考链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Bert

bert的原理+代码估计啃至少一个星期
本来bert的源代码要用起来挺不容易的,还好有大神写了个pytorch的高级封装
腾讯也有个服务器的封装版 bert_as_service
注:bert的序列最大长度是512,调长好像会报错

pip install fast-bert
from fast_bert.data import *
from fast_bert.learner import *
from pytorch_pretrained_bert.tokenization import BertTokenizer

# 关键的有三步
# 使用bert预训练模型转换词向量
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased", do_lower_case=True)
# batch数据接口
# label_cols: ['字符串1', '字符串2']
databunch = BertDataBunch(DATA_PATH, LABEL_PATH, tokenizer, train_file='train.csv', val_file='valid.csv',
                          test_data='test.csv', label_file="labels.csv",
                          text_col="comment_text", label_col=label_cols,
                          bs=512, maxlen=512, multi_gpu=False, multi_label=True)
# 创建模型模型
learner = BertLearner.from_pretrained_model(databunch, “bert-base-uncased“,  metrics, device, logger
                                            is_fp16=True, loss_scale=128, 
                                            multi_gpu=False,  multi_label=False)
# 4个并行任务
learner.fit(4, lr=0.001, schedule_type="warmup_linear")

参考链接:
https://github.com/wshuyi/demo-fastbert-multi-label-classification

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值