
Huggingface
文章平均质量分 95
Hiweir ·
日常分享NLP自然语言处理的学习笔记,
若大佬们发现了我的学习错误,欢迎大佬们指正,万分感谢
展开
-
AI写诗--基于GPT2预训练模型
从本地读取数据lines = f.readlines() #读取的每一行数据都会以一个字符串的形式 依次添加到一个列表中#split()函数可以根据指定的分隔符将字符串拆分成多个子字符串,并将这些子字符串存储在一个列表中。#strip()函数默认移除字符串两端的空白字符(包括空格、制表符、换行符等)lines = [line.strip() for line in lines] #输出的lines是一个一维列表,里面的每一行诗都是一个字符串#self.的变量在类里面可以调用。原创 2024-10-05 14:03:18 · 1210 阅读 · 0 评论 -
NLP任务之翻译
翻译任务是标准的seq2seq的任务, LM是使用的模型的Linear Model那一层, MarianModel是专门用于翻译的模型#加载的预训练模型与加载的预训练分词器保持一致#创建一个变量 最后一层有vocab_size个类别概率输出,对应的也会有vocab_size个bias参数#输出层:全连接层#加载预训练权重参数#创建损失函数 ,创建在训练代码里面也可以!!!#获取最后一层的hidden_state。原创 2024-10-04 15:36:37 · 1755 阅读 · 0 评论 -
NLP任务之文本分类(情感分析)
查看模型参数与层结构super().__init__() #继承父类的方法#全连接层#Bert模型输出的数据的最后一维度是768,这里输入的第0维度也要是768torch.nn.Linear(768, 2)) #二分类问题,情感分析(积极1/消极0)#加载预训练参数的模型num_labels=2) #labels的类别数量#让全连接层加载预训练的参数#损失函数#将输入数据传入预训练模型,得到一个输出结果#logits是三维的# :使logits变成二维数据。原创 2024-10-01 22:23:20 · 1799 阅读 · 0 评论 -
nlp任务之预测中间词-huggingface
'#'input_ids'中的2:表示 'eos_token': '原创 2024-09-30 16:56:05 · 1112 阅读 · 0 评论 -
NLP任务之预测最后一个词
针对这个vocab_size=50257的问题,分类类别就是50257个类别。#预测下一个词,只需要数据集中的sentence, 不需要label和idx。#使用map函数做映射。处理只剩下sentence。#预测最后一个词:是一个多分类问题。原创 2024-09-29 20:01:44 · 1335 阅读 · 0 评论 -
huggingface实现中文文本分类
自定义数据集#需要继承 torch.utils.data.Dataset,#并且实现__init__(self)/__len__(self)/__getitem__(self,i)这些方法#加载本地磁盘的datasetsself.datasets = load_from_disk('../data/ChnSentiCorp') #self.datasets是一个字典,包含训练、校验、测试的datatset。原创 2024-09-28 22:17:01 · 1095 阅读 · 0 评论 -
huggingface的transformers与datatsets的安装与使用
安装python语句#在jupyter notebook中 安装语句。原创 2024-09-28 15:26:56 · 1330 阅读 · 0 评论