HuggingFace(一) | 一起玩预训练语言模型吧

Hugging Face的目标
尽可能的让每个人简单,快速地使用最好的预训练语言模型;
希望每个人都能来对预训练语言模型进行研究。
不管你使用Pytorch还是TensorFlow,都能在Hugging Face提供的资源中自如切换。

Hugging Face的主页
Hugging Face – On a mission to solve NLP, one commit at a time.

Hugging Face所有模型的地址
https://huggingface.co/models

你可以在这里下载所需要的模型,也可以上传你微调之后用于特定task的模型。

Hugging Face使用文档的地址
https://huggingface.co/transformers/master/index.html

一个快速使用的例子
如果你想快速的判断一下输入序列的情感极性,那么就:

from transformers import pipeline
classifier = pipeline('sentiment-analysis')   # 在pipline()中可以指定很多task
print(classifier('what are you doing?'))
如果没有指定使用的模型,那么会默认下载模型:“distilbert-base-uncased-finetuned-sst-2-english”,下载的位置在系统用户文件夹的“.cache\torch\transformers”目录。

————————————————————————————

如果想选择自己想要的模型,那么就:

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification
# AutoTokenizer用于tokenize,可以通俗理解为分词
# AutoModelForSequenceClassification将用于下载模型
 
model_name = "nlptown/bert-base-multilingual-uncased-sentiment"     # 选择想要的模型
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
classifier = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
print(classifier('what are you doing?'))
请确保这个模型存在于:https://huggingface.co/models

————————————————————————————

如果你想指定模型的下载位置,那么就在代码最前面输入:

import os
os.environ['TRANSFORMERS_CACHE'] = ‘地址’

即:

import os
os.environ['TRANSFORMERS_CACHE'] = ‘地址’
 
from transformers import AutoTokenizer, AutoModelForSequenceClassification
# AutoTokenizer用于tokenize,可以通俗理解为分词
# AutoModelForSequenceClassification将用于下载模型
 
model_name = "nlptown/bert-base-multilingual-uncased-sentiment"   # 选择想要的模型
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
classifier = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
print(classifier('what are you doing?'))
————————————————————————————

当然,也可以先把模型下载下来,再从本地读取

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification
 
model_name = "./nlptown/bert-base-multilingual-uncased-sentiment"  # 这里是文件路径(文件夹)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
classifier = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
print(classifier('what are you doing?'))
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

手把手教你学AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值