自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(100)
  • 收藏
  • 关注

转载 windows解决pycharm 使用远程调试功能时matplotlib plot出的图片无法查看问题

https://www.jianshu.com/p/841134a8444a

2022-06-14 17:25:49 612

原创 torch中(required_grad_=True),根据mask替换掉部分值

举个例子a = torch.randn(2, 3, 4)a.requires_grad=Trueatensor([[[ 1.2255, 1.5870, -0.5485, -0.4809], [-0.3167, -0.2933, -0.0604, 0.3498], [ 0.1436, 0.3083, 1.6776, -1.1144]], [[-1.5001, 0.7174, 0.2585, 0.2669], [-0.1

2022-04-26 09:14:35 929

原创 记录一个神奇的事情,Linux用screen时运行cuda卡住了

不知道为什么就卡住了,Linux用screen时运行cuda卡住了。我用快捷键 ctrl + a + [进入screen滚动,然后Esc退出,奇迹般的又运行了!!! 我:???

2022-04-10 22:13:05 887

原创 PyTorch - torch.eq、torch.ne、torch.gt、torch.lt、torch.ge、torch.le

2022-04-05 19:27:59 759

转载 python yield详解

https://blog.youkuaiyun.com/mieleizhi0522/article/details/82142856

2021-12-29 18:26:29 89

原创 word的向量表示

我们应该将后续的多层输出结果一起进行拼接用作后续的输入可以拿到比任何某层更好的效果。

2021-12-18 09:37:48 381

原创 NLP语料标注工具

rasa-nlu-trainer 可同时对文本类型与实体类型进行标注使用:https://mp.weixin.qq.com/s/EyGKGJe_KHpadM2KtT9FNglabelstudio:好用的数据标注工具工具网址:https://labelstud.io/示例:https://labelstud.io/blog/release-130.html...

2021-12-17 09:40:42 871

原创 random.seed()的注意使用

在函数内部设置random.seed(seed) ,函数每次生成的随机数才一样,设置到到函数外部每次生成的不一样。

2021-12-14 15:39:31 490

原创 pytorch运行卡住,即不报错也不停止

程序运行到加载数据时卡住for _, (support, query) in enumerate(eval_dataset)把dataloader里的num_workers=0也没用,但是把eunmerate去掉有用了,但是运行到一半又停下了

2021-12-12 16:25:14 8658 2

原创 PyTorch 动态更新 DataLoader

举个例子,我们只想取 Dataset 中的一部分,所以可以使用 SubsetRandomSampler 。from torch.utils.data import DataLoader, TensorDataset, SubsetRandomSampler, BatchSamplerimport torchcandidate = [1]dataset = TensorDataset(torch.tensor(list(range(10))))dataloader = DataLoader(dat

2021-12-04 10:19:20 939

原创 怎样克服神经网络训练中argmax的不可导性?

文章目录1. strainght through Gumbel (estimator)2. stop gradient operation3. 可以对argmax/argmin 这种不可导的操作直接忽视,也就是锁定1. strainght through Gumbel (estimator)令:argmax(v)=softmax(v)+c;c=argmax(v)−softmax(v),且为常数argmax(v)=softmax(v) + c ; c=argmax(v) -softmax(v),且为常数

2021-11-17 10:27:32 1557

原创 文本的向量表示

文章目录流式变换BERT-flow带白化处理的BERT-whitening对比学习的SimCSEBERT encode出来的文本向量有两个问题:BERT encode出来的向量表达具有各向异性:用不同的方式去衡量向量,表现出来不同的语义,差别很大,也就是不能完整的衡量出 BERT 向量中全部语义信息。分布不均匀,低频词分布稀疏,高频词分布紧密 :也就是高频词会集中在头部,离原点近;低频词会集中在尾部,离原点远;高频词与低频词分布在不同的区域,那高频词与低频词之间的相识度也就没法计算了。这也反映出

2021-11-11 17:16:25 868

转载 Transformers仓库做语言生成的解码方法介绍

https://mp.weixin.qq.com/s/ODIuVCk6Dh644AOUxaU6gQ

2021-11-10 10:17:02 245

原创 面试中的深度学习基础问题

文章目录1.Batch Normalization1.Batch Normalization由于Internal Covariate Shift(Google)效应产生,即深度神经网络随着网络层数的加深,该层的输入会发生变化,使得输入不满足独立同分布的条件,反而向激活函数的两端移动(梯度很小),导致梯度消失,收敛困难。可在每层的激活函数前,加入BN,将参数重新拉回0-1正态分布,加速收敛。理想情况下,Normalize的均值和方差应当是整个数据集的,但为了简化计算,就采用了一个mini-batch内的。

2021-11-08 18:59:43 898

转载 pytorch训练过程中出现nan的排查思路

https://blog.youkuaiyun.com/mch2869253130/article/details/111034068

2021-10-29 20:53:57 1024

原创 对比学习的假负样本

负样本质量分析Cai T T, Frankle J, Schwab D J, et al. Are all negatives created equal in contrastive instance discrimination?[J]. arXiv preprint arXiv:2010.06682, 2020.最简单的 95% 的负样本是不必须的,对整个模型的影响非常小。最难的5%的负样本对整个模型的影响是巨大的,因此这些样本是必须的,而且这样的负样本数量也是足够的。仅在这些样本上进行训练就能

2021-10-27 09:22:26 1788

原创 Improving and Simplifying Pattern Exploiting Training

这篇文章是对PET的改进。左边是PET的过程,是预测位置的token,然后经过softmax得到 logits,再用label_word处的logit计算

2021-10-26 13:13:23 372

原创 如何创建torch.tensor对象并仅更新其某些元素

https://www.coder.work/article/4933133

2021-10-23 15:19:53 517

原创 torch指定显卡and指定显卡仍无效

torch的一些初始化仍然要用第0块显卡,在代码中使用.cuda('cuda:1') 或者to.device('cuda:1') 时,torch仍然会用第0块显卡来初始化。解决方法:(1)该方法要在import torch 之前,更新版本也可能发生变化import os os.environ['CUDA_VISIBLE_DEVICES'] = gpu_ids (2) 在命令行中执行代码时指定CUDA_VISIBLE_DEVICES=gpu_ids python3 train.py说实话

2021-10-12 18:34:57 2033

原创 不要Prompt的Few-shot NER

前言基于prompt的方法本质上是为句子级别的任务设计的,很难适应于token级别的任务。因为:针对token级别的template的搜索空间变大;在少量样本上训练容易过拟合。输入端b中是提出的模型,它没有添加prompts,但他的label words却很大。如图,对于person类型,它的的label words不仅包含person,还有其他person类的实体John、Australia等等。输出端answer映射的构建有三种:Data Search对于每一个label选取概率最大的

2021-10-11 09:32:23 940 2

原创 用分类模型做排序任务时 margin 的必要性

文章目录三角不等式类内差距小于类间差距推到AM-Softmax分类任务的目标是“最靠近所属类的中心”, 但排序时是对所有样本距离从小到大来排序。这会遇到如下困境:z1属于c1,但离z2较近,检索做排序时则会把z2排到其他c1类样本的前边,要解决这个问题,则需要z1与z3的距离小于z1与z2的距离,即“类内差距小于类间差距”。三角不等式平时,我们说的距离一般指比较直观的“欧氏距离”,但在数学上距离,距离又叫“度量”,它有公理化的定义,是指定义在某个集合上的二元函数d(x,y)d(x, y)d(x,y)

2021-10-08 15:53:48 227

原创 transforms存储、加载tokenizer

tokenizer.save_pretrained('tokenizer') # 存储tokenizer = BertTokenizerFast.from_pretrained('tokenizer') # 加载,BertTokenizerFast替换成对应的tokenizer

2021-10-05 15:49:37 458

原创 R-drop

由于深度神经网络非常容易过拟合,因此 Dropout 方法采用了随机丢弃每层的部分神经元,以此来避免在训练过程中的过拟合问题。正是因为每次随机丢弃部分神经元,导致每次丢弃后产生的子模型都不一样,所以 Dropout 的操作一定程度上使得训练后的模型是一种多个子模型的组合约束。基于 Dropout 的这种特殊方式对网络带来的随机性,研究员们提出了 R-Drop 来进一步对(子模型)网络的输出预测进行了正则约束。论文链接:https://arxiv.org/abs/2106.14448GitHub 链接:

2021-09-30 16:14:40 153

原创 Focal Loss:样本不均衡以及样本难易不同

文章目录现状解决办法方法一、分科复习方法二、刷题战术方法三、综合上述两者调参经验总结现状先来回顾一下常用的 BinaryCrossEntropyLoss 公式如下不难看出,CE是个“笨学生”。考前复习的时候,「他不会划重点,对所有知识点 “一视同仁”」。如果教科书上有100道例题,包括: 90道加减乘除 + 10道 三角函数。CE同学就会吭哧吭哧的“平均用力”反复练习这100道例题,结果可想而知——他会精通那90道个位数加减乘除题目,然后其他题目基本靠蒙。那10道他不会的题,往往还是分值高的压轴

2021-09-18 08:47:08 408

原创 获取token i 都 token j 的影响力

文章目录Perturbed MaskingPerturbed MaskingPerturbed Masking 是港大和华为ACL20提出的。重复上述操作,会得到一个每一对token的影响度的矩阵。

2021-09-16 08:34:58 167

原创 PPT: Pre-trained Prompt Tuning for Few-shot Learning

文章目录预训练方法Sentence-Pair ClassificationMultiple-Choice ClassificationSingle-Sentence ClassficationUnifying Task Formats实验结果如题目所示,本篇的思想是Prompt也经过预训练,得到Prompt的表示,然后在固定任务的数据集上微调。预训练方法符号:PVP=<f,v>PVP=<f, v>PVP=<f,v> to denote this pattern-ve

2021-09-14 15:01:46 1476

原创 模型预测不准确

一开始我是这样写early-stopping:if pre_batch_loss <= val_loss: breakelse: pre_batch_loss = val_loss训练的时候,有很多epoch内,batch的loss都是先降低又升高,但mean_val_loss却一直下降,所以它能一直训练。但测试时,只预测一种类别。这样改了以后,预测就好多了:if pre_batch_loss <= val_loss: ner_model.load_state_dict(to

2021-09-13 16:29:34 398

原创 加入标点符号进行增强,仅适用于文本分类

在1到1/3的句子长度中,随机生成一个数字a。用a个标点符号在句子中随机插入。这些标点符号为:['.', ',', '!', '?', ';', ':']。理论基础:对于文本分类来说,EDA方法,如论是同义词替换,还是随机替换、随机插入、随机删除,都改变了原始文本的序列信息;而AEDA方法,只是插入标点符号,对于原始数据的序列信息修改不明显。代码:PUNCTUATIONS = ['.', ',', '!', '?', ';', ':']PUNC_RATIO = 0.3def insert_pu

2021-09-11 09:13:29 446

原创 Prompt-Learning for Fine-Grained Entity Typing

文章目录输入端Promt定义hard-encodingsoft-encodingAnswer映射训练针对zero-shot的自监督Prompt-learning引用输入端Promt定义hard-encoding对于比较明确、简短的任务,使用人工定义。soft-encoding使用的promt如下,其中,[P]为分隔符,[P1],...,[Pl]为随机初始化的向量。从直觉上来说,经过训练以后,[P1],...,[Pl]所表示的向量与[MASK] 相近。Answer映射一个实体可能是多类别的

2021-09-10 19:05:41 1094

原创 Prompt-tuning相关的工具

相近词查找:https://relatedwords.org/

2021-09-10 10:42:55 252

原创 2021最新对比学习(Contrastive Learning)在各大顶会上的经典必读论文解读

https://mp.weixin.qq.com/s/8W2thwO6EW7KGkhrF1XvYg

2021-09-10 10:14:50 211

原创 Making Pre-trained Language Models Better Few-shot Learners

文章目录输入端自动生成PromptPrompt的拼接方式模型简称LM-BFF,better few-shot fine-tuning of language models。符号:预训练模型为L\mathcal{L}L,总数据集为$$输入端自动生成Prompt对于给定的词表中的label,利用自回归模型T5自动生成Prompt,Prompt的拼接方式...

2021-09-10 09:46:47 946

原创 Attention函数手册!

比较简单,直接发链接:https://mp.weixin.qq.com/s/ncYL9vDphYXebditMYIhGQ

2021-09-09 10:15:08 164

原创 Prompt入门

Prompt的范式大抵是两种:续写Prefix:用在GPT2-3那种单向LM预训练模型上,输入「好好学习,翻译成英文:」,输出「good good study」完形填空:用在BERT那种MLM式预训练模型上,比如情感分类任务可以输入「这个饼不错,太X了」,输出「棒」Prompt主要难在3个方面:输入端:怎么样选取合适的Prompt,适配不同任务,同时把模型潜能激发出来怎么把Prompt结合输入的句子构成模型的输入输出端:模型的输出( Answer)不可能与标签相同,拿到answer

2021-09-09 10:02:17 1556

原创 instruction-tuning

instruction-tuning是在Prompt-tuning之后提出的,它的思想是:在对A做Prompt-tuning之前,先在其他若干的任务之上做Prompt-tuning。如图:每个任务有多个Prompt,作者使用了10个。引用:别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!...

2021-09-08 09:13:00 2916

原创 线性Attention只在几千等的长度时才有效

对于base版来说,当序列长度不超过1536时,Transformer的复杂度都是近乎线性的;当序列长度超过1536时,Transformer的计算量逐渐以Attention为主,复杂度慢慢趋于二次方,直到长度超过4608,才真正以二次项为主。引用:线性Transformer应该不是你要等的那个模型...

2021-09-07 16:51:15 217

原创 模型损失的loss不下降或下降很慢

这里主要记录我碰到的原因model.eval()当一个大的模型model中内含bert等大模型时,大模型使用model.eval()时,Bert也同时使用bert.eval()

2021-09-06 19:48:10 8323

原创 损失的线性组合的问题

文章目录凸帕累托前沿面凹帕累托前沿面一般的实际问题凸帕累托前沿面当帕累托前沿面为凸时的前沿面如图所示:调整α\alphaα只能改变平面的角度。星星在的点就是最优解,可见,对于所有的α\alphaα,模型都能找到最优解。凹帕累托前沿面可见,对于所有的α\alphaα,模型最后只能落到左右两点。一般的实际问题实际情况中,既存在凸的,也存在凹的,解只有在凸帕累托前沿面之中。...

2021-07-29 16:14:13 328

原创 深度学习里的长尾分布(类别样本不平衡)

文章目录数据不平衡回归问题问题提出标签分布平滑(LDS)特征分布平滑(FDS)引用数据不平衡回归问题问题提出如上图,我们根据图像预测age,但age是一个连续值,并且中年时的样本多,老年和青年的样本少。如果将不同年龄划分为不同的类别来进行学习的话,是不太可能得到最佳的结果,因为这种方法没有利用到附近年龄人群之间特征的相似性。数据不平衡回归问题基本状况如上图所示,1)样本分不均衡,2)目标值是连续的,3)甚至有的目标值范围内会缺失数据。注意:如果训练阶段,部分目标值范围内数据缺失,而在测试时,该

2021-07-16 16:55:05 3120

原创 命名实体识别方法

线性插值(linearly interpolate)线性插值指的就是图中interpolate公式。其中的一个Layer是Bert中一个transform block。X与X′X^{\prime}X′是相近的句子,可以是KNN中的同类句子; X′X^{\prime}X′也可以由X回译得到。详见论文:https://arxiv.org/pdf/2010.01677.pdf...

2021-07-10 22:04:48 145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除