利用transformers包加载预训练好的Bert模型

最新推荐文章于 2024-10-22 18:01:28 发布

原创

最新推荐文章于 2024-10-22 18:01:28 发布 · 3k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#bert #自然语言处理 #深度学习

本文详细介绍了如何使用transformers库加载预训练的Bert模型，通过encode()和encode_plus()方法获取句子的Embedding，包括输入ID、类型ID和注意力掩码。通过实例演示了不同参数设置下的编码过程。

利用transformers包加载预训练好的Bert模型得到句子Embedding

1. transformers包加载预训练好的Bert模型
2. 得到句子Embedding
- （1）encode()方法：仅返回input_ids
- （2）encode_plus()方法:返回所有的编码信息
3. Eg：以上代码整理，可跑

1. transformers包加载预训练好的Bert模型

# 1. 导入包
import torch
from transformers import BertTokenizer

# 2. 所需要的预训练好的model
model_name = 'bert-base-uncased'

# 3. 通过词典导入分词器
tokenizer = BertTokenizer.from_pretrained(model_name)
sentence = "A very clean and well decorated empty bathroom."

2. 得到句子Embedding

（1）encode()方法：仅返回input_ids

def encode(
        self,
        text: Union[TextInput, PreTokenizedInput, EncodedInput],
        text_pair: Optional[Union[TextInput, PreTokenizedInput, EncodedInput]] = None,
        add_special_tokens: bool = True,
        padding: Union[bool, str, PaddingStrategy] = False,
        truncation: Union[bool, str, TruncationStrategy] = False,