
nlp:论文
nlp论文
ws_nlp_
这个作者很懒,什么都没留下…
展开
-
SimCSE详解,Simple Contrastive Learning of Sentence Embeddings
简介contrastive(对比)学校框架,提升句子embedding效果无监督,句子本身和句子自己带有dropout使用NLI数据集,entailment(蕴含)对作为正例,contradiction(矛盾)对作为负例在STS任务上,效果好介绍无监督simcse预测句子本身,仅使用dropout作为噪声换句话说,我们把相同的输入句子放到预训练encoder两次,包括两个embedding作为正例对,这两个encoder单独dropout(互不影响,不同的dropout形成不同的embeddi原创 2021-06-07 20:13:24 · 1715 阅读 · 0 评论 -
ACL2020论文-知识图谱词义消岐论文翻译及详解(EWISER)
论文原名:Breaking Through the 80% Glass Ceiling:Raising the State of the Art in Word Sense Disambiguationby Incorporating Knowledge Graph Information概要神经结构是最新的词义消岐技术(WSD)。然而,它们有限的使用了大量被编码在基础词汇知识(LKB)中的关系信息。我门提出了一个提升WSD的方法。...原创 2021-01-21 19:49:26 · 501 阅读 · 0 评论 -
CogLTX的核心思想,这段话的中文意思是什么
“The central executive – the core of the (working memory) system that is responsible for coordinating(multi-modal) information”, and “functions like a limited-capacity attentional system capable ofselecting and operating control processes and strategies”原创 2021-01-18 11:53:25 · 249 阅读 · 1 评论 -
CogLTX论文详解及翻译( Applying BERT to Long Texts ,清华大学和阿里联合发布论文使用BERT解决长文本问题)(一)
CogLTX论文详解及翻译Applying BERT to Long Texts清华大学和阿里联合发布论文使用BERT解决长文本问题原创 2020-12-03 15:03:21 · 1039 阅读 · 1 评论 -
论文Extractive Summarization as Text Matching
论文Extractive Summarization as Text Matching详解文本匹配式摘要抽取概要大多数摘要抽取都是单独抽句子,然后使用模型来观察句子间的相似关系。我们假设摘要抽取是一个匹配工作,与文档向量最相似的句子就是文本的摘要。(经过分析句子级和摘要级的抽取分析,我们相信我们的假设是有根据的)第一章 介绍在本文中,我们提出了摘要级的框架。将摘要抽取转换为摘要配对工作。主要思想是,一个好的摘要应该与整个文章的语义更加相似(相对于其他摘要)。学习每一个文本片段的向量,然后使用原创 2020-06-22 17:26:41 · 1472 阅读 · 1 评论 -
Transformer论文详解,论文完整翻译(九)
Transformer论文详解,论文完整翻译(九)第五章 训练这一章描述了我们模型的训练过程。(个人总结,请勿转载)原创 2020-06-22 10:06:51 · 549 阅读 · 0 评论 -
SegaBERT论文详解及翻译(全面改进Transformer类预训练模型,自然语言任务超过BERT的SegaBERT,2020年4月论文)
SegaBERT论文详解及翻译摘要预训练模型取得了SOTA的结果在多种nlp任务中。它们中的大多数基于Transformer结构,使用token的序列输入位置来区分token。然而,句子索引和段落索引对于标识一篇文档中的token位置也同样重要。我们假设使用更好的位置信息做text encoder可以生成更好的篇章表示。为了证实这个观点,我们提出了一个segment-aware BERT,使用了段落索引,句子索引和token索引去代替了transformer中的token位置信息来进行embedding原创 2020-06-10 11:39:07 · 909 阅读 · 0 评论 -
Transformer论文详解,论文完整翻译(八)
Transformer论文详解,论文完整翻译(八)第四章 为什么要Self-Attention在本章中,我们从不同方面,来比较self-attention层和循环卷积层的基本应用:对于一个变长序列的符号表示,映射到另一个同长度序列,就像一个经典的序列转换encoder或者decoder的隐层一样。我们使用self-attention的动机是我们考虑了三个必要方面。(个人总结,请勿转载)...原创 2020-06-18 20:06:31 · 624 阅读 · 0 评论 -
Transformer论文详解,论文完整翻译(七)
Transformer论文详解,论文完整翻译(七)3.3 位置相关的前馈神经网络除了子层的attention之外,每个encoder和decoder层包括了一个全连接前馈网络,每个网络在每个位置中是单独并且相同的。网络包括了两个线性转换和一个ReLU激活函数。(未完待续)(个人总结,请勿转载)...原创 2020-06-18 16:57:55 · 642 阅读 · 0 评论 -
Transformer论文详解,论文完整翻译(六)
Transformer论文详解,论文完整翻译(六)第三章 模型结构(三)3.2.2 多头attention替代了使用单独的attention函数对模型维度对k,v和q进行操作,我们发现对q,k和v做h次不同的线性操作(映射)更加有效,进行线性操作转换为dk维,dk维和dv维度。这些操作我们进行平行的attention,每一个输出dv维度的输出v。将这些输出拼接再做一次映射,得到最终的value,我们在图中进行了描述。(未完待续)(个人总结,请勿转载)...原创 2020-06-08 16:44:32 · 746 阅读 · 0 评论 -
Transformer论文详解,论文完整翻译(五)
Transformer论文详解,论文完整翻译(五)第三章 模型结构(二)3.2 attention(未完待续)(个人总结,请勿转载)原创 2020-06-08 12:18:14 · 473 阅读 · 0 评论 -
Transformer论文详解,论文完整翻译(四)
Transformer论文详解,论文完整翻译(四)第三章 模型结构(一)许多竞争网络序列转换模型有encoder-decoder结构。encoder映射是将输入的符号序列表示(x1,…,xn)转换成一个序列连续的表示 z。给出z后,decoder生成一个输出序列(y1,…,yn)每个元素一个符号。每一步,模型都是自动递归的,在生成下一个符号时,使用之前生成的符号进行计算。Transformer使用了这种总体结构,使用多层self-attention和point的方式,对encoder和decoder进原创 2020-06-06 10:28:43 · 529 阅读 · 0 评论 -
Transformer论文详解,论文完整翻译(三)
Transformer论文详解,论文完整翻译(三)第二章 背景减少序列计算的方法有几种形式,建立超强的GPU,ByteNet和ConvS2S,这些都是用cnn作为基本模块,并行计算所有输入和输出位置的隐层表示。在这些模型中,计算开销与两个输入或者输出的位置相关,随着距离的增加而增加,ConvS2S是线性的而ByteNet是对数的,这让学习长距离依赖变得困难。在Transformer中,计算开销减少到一个常量,即使计算开销变少,依然有一个较好的效果因为使用了对位置的加权attention,我们使用的Mul原创 2020-06-05 20:12:40 · 440 阅读 · 0 评论 -
Transformer论文详解,论文完整翻译(二)
Transformer论文详解,论文完整翻译(二)第一章 介绍特别是RNN,LSTM,GRU,已经稳固的在序列模型和转换问题建立了SOTA,像语言模型和机器翻译。大量的相关工作一直在持续进行去推动循环语言模型的发展和encoder-decoder结构。循环模型典型的因素是计算了输入输出序列的位置信息。为了在每步计算时与加入位置信息,他们生成了一个序列隐状态h(t),通过一个函数处理前一个隐状态h(t-1)和当前的位置t的输入。这种内在的序列自然排除了训练样本时并行的可能,在长序列中的情况下消耗更大,内原创 2020-06-05 17:47:29 · 767 阅读 · 0 评论 -
Transformer论文详解,论文完整翻译(一)
Transformer论文详解,论文完整翻译(一)概要重要的序列转换模型基于复杂的CNN或者RNN进行encoder和decoder。同时最好的模型也使用了attention连接encoder和decoder。我们提出一个新的网络结构,Transformer,完全使用attention,摒弃了RNN和CNN。两个机器翻译任务上的实验表现出了优秀的实验结果,同时包括了更多的并行操作,只需要更短的训练时间。我们的模型在’英译德‘2014 WMT翻译任务上达到了28.4的BLEU值,超过了包括联合模型的最好结原创 2020-06-05 15:51:58 · 2534 阅读 · 0 评论 -
Universal Sentence Encoder 论文详解
Universal Sentence Encoder 论文详解Abstract提出了两个句向量模型(用于迁移学习,下同)。衡量了模型复杂度,资源消耗,迁移能力和任务效果。Baseline为词向量模型。句向量模型效果比较好,少量标记数据就可以有较好的效果。Introduction标记成本限制了NLP任务的效果,许多模型使用预训练词模型加上少量标记样本进行迁移学习,句向量模型效果更好。本文提出了两种句向量模型,发现少量标记样本就可以取得很好效果。同时我们也衡量了模型的工程特性。(时间开销,内存需求等原创 2020-05-22 14:42:11 · 2447 阅读 · 0 评论 -
SBERT论文详解
Sentence-BERT: Sentence Embeddings using Siamese BERT-NetworksAbstractBERT在句对回归任务中表现很好,但是计算开销很大。我们使用孪生网络对BERT做fine-tune使得句向量可以用于cos相似度计算,减少开销,保持准确。评估后效果比SOTA较好。IntroductionSBERT使得BERT适用于句对回归,聚类,文本信息检索。原始BERT需要输入两个句子,句对回归开销大。改进方法输入一个句子,使用ave或者CLS,效果原创 2020-05-20 17:09:17 · 3220 阅读 · 2 评论