
NLP论文阅读
文章平均质量分 85
传道解惑也
大作业,毕设辅导
1. python系列: 基础知识、数据分析、爬虫等等。
2. 机器学习系列: 十大黄金算法,如: 决策树、SVM、各种集成算法等等。
3. NLP系列: 情感分析、实体识别、语义召回、机器阅读理解、大模型微调等等。
展开
-
FLASH:一种高效的Transformer设计
在标准的Transformer结构中,多头注意力和FFN是交替连接的。GLU那篇论文中,将FFN替换成基于门控的线性单元,发现效果会变好。因此,我们先简单了解一下门控单元GLU的计算,如下左图:具体计算:也就是将输入X分别经过放射变换(线性映射+激活函数)得到U,VU,VU,V。然后再将U,VU,VU,V进行点积,最后再进行线性映射,得到门控线性单元的输出。上述的GLU中没有对token两两进行注意力计算,如果在上面的U,VU,VU,V。...原创 2022-08-31 09:59:18 · 1634 阅读 · 0 评论 -
[ACL2022] Text Smoothing: 一种在文本分类任务上的数据增强方法
论文链接: https://arxiv.org/abs/2202.13840。原创 2022-08-31 09:57:08 · 1458 阅读 · 1 评论 -
Keyword2Text: 一种即插即用的可控文本生成方法
本次分享一篇可控文本生成方面的论文。提到文本生成,可能很多人的第一印象都是不靠谱,不就是复制粘贴,模型只是将训练语料记住了而已,谈创造性都是瞎扯emem…。这趟浑水总该有人趟吧,如果对ai充满悲观的人,可以去瞧瞧cv那边文本到图片的生成,或者能让你对ai有所改观。闲话少说,直接切入文本生成主题。谈到文本生成,可能会想到很多模型,如GPT系列、T5系列、UniLM、Bart等等。但这些模型在可控方面做的都不够好,文本生成的主题主要还是依赖于训练语料的分布。...原创 2022-08-26 19:11:01 · 1731 阅读 · 2 评论 -
UIE: 信息抽取的大一统模型
信息抽取通常包含常见的四个子任务: 实体抽取、关系抽取、事件抽取以及情感分析等。在过去,因为不同的任务识别的实体、事件类型等等都不一样,所以针对特定的任务要训练特定的模型,定制化较高,不具有通用性。...原创 2022-07-24 11:07:41 · 5711 阅读 · 1 评论 -
MarkBERT: 一种通过简单添加词边界的方法来增强预训练模型
预训练模型方向一直都是大小厂的必争之地。对于中文预训练模型,将中文文本转成对应的token,到底是以字、还是词、或者字+词为单位,大家各有看法。原创 2022-07-01 18:00:45 · 1003 阅读 · 0 评论 -
PromptBERT: 利用Prompt改善BERT的句子表示
今天继续关注句子表示学习。之前笔者一直觉得Prompt就是概念炒作(可能我比较菜),不觉得能有啥大的发展。但是近一年来,类似的论文层出不穷,不注意都难。今天这篇论文让我对Prompt有了很大的改观。...原创 2022-06-08 19:23:33 · 4266 阅读 · 5 评论 -
[ACL2022] DCLR: 无监督句子表征的去偏对比学习
句子表征一直是一个很卷的方向。从最开始的DSSM到现在的对比学习(如: SimCSE、CoSERT等),效果不断被刷新。但是在对比学习中,有个问题一直待解决: 假负例。 即一个batch内除了自身以外全部视为当前样本的负例,这样显然有些简单粗暴。如下图:作者使用simcse训练好的模型在wikipedia的数据集上做了一个测试,当前一个样本和其在一个batch内的255个负例做了相似度计算,发现50%+的样本相似度都大于0.5,也就是有很多都是假负例。显然,这样的学习是有偏的。针对这种问题,本文提出了一种负原创 2022-06-02 10:25:28 · 981 阅读 · 0 评论