langboat_mengzi的博客

NLP 论文领读

关注

文章平均质量分 92

关注数：文章数：9 文章阅读量：5576 文章收藏量：19

作者: 澜舟孟子开源社区

这个作者很懒，什么都没留下…

展开

论文领读｜基于 VQVAE 的长文本生成

本次与大家分享一篇建模长文本篇章结构的工作，用以提升生成文本的连贯性。

原创 2022-11-28 18:07:43 · 913 阅读 · 0 评论
NLP 论文领读｜无参数机器翻译遇上对比学习：效率和性能我全都要！

检索式增强主要目的是基于一定的检索范式来利用现存数据，影响模型最终得到的结果，从而降低模型参数的负担。本文我们聚焦在机器翻译领域，看看在机器翻译中最新的利用检索来进行增强的范式！...

原创 2022-08-05 13:43:53 · 429 阅读 · 0 评论
NLP 论文领读｜文本生成模型退化怎么办？SimCTG 告诉你答案

重复生成是长文本生成中很常见的现象，论文中提出一种 SimCTG 方法，通过抑制模型生成不自然且包含不必要重复的文本，从而缓解文本生成模型的退化问题。

原创 2022-07-04 17:25:34 · 517 阅读 · 0 评论
NLP 论文领读｜改善意图识别的语义表示：有监督预训练中的各向同性正则化方法

意图识别（intent detection）是面向任务对话系统的核心模块，其标注数据较少，所以研究怎样用少量数据训练出一个优秀的意图分类器（few-shot intent detection）有着很高的实用价值。

原创 2022-06-23 14:25:09 · 865 阅读 · 0 评论
NLP 论文领读 | Seq2Seq一统江湖？谷歌提出全新端到端检索范式DSI，它才是检索模型的未来？

近日，来自谷歌研究院的研究人员提出了一种基于Seq2Seq的端到端检索架构DSI，并取得了不错的检索效果。接下来就让我们一起来看看这篇论文，它是否能够代表未来检索模型的发展方向呢？

原创 2022-06-20 13:28:55 · 424 阅读 · 0 评论
NLP 论文领读｜合成数据的妙用：低成本构建高质量的大规模平行语料

人工构建高质量平行数据是一件成本巨大的事情，且几乎不可能满足目前神经机器翻译对数据量的需求。因此人们尝试通过自动构建平行数据的技术。该论文利用合成数据，对挖掘得到的平行数据中不完全对齐的数据进行替换，从而得到高质量的平行语料。......

原创 2022-06-15 19:49:55 · 658 阅读 · 0 评论
NLP 论文领读 | Seq2Seq一统江湖？谷歌提出全新端到端检索范式DSI，它才是检索模型的未来？

近日来自谷歌研究院的研究人员就发表了一篇名为《Transformer Memory as a Differentiable Search Index》的论文，提出了一种基于Seq2Seq的端到端检索架构DSI，并取得了不错的检索效果。

原创 2022-06-13 14:42:33 · 552 阅读 · 0 评论
NLP 论文领读｜缺少有标注的数据集怎么训练文本检索模型？来看看 LaPraDoR怎么做的吧

本文带领大家阅读了 ACL 2022 的一篇论文，论文提出了 LaPraDoR——一种无监督预训练模型，在 BEIR 评测集上达到了 SOTA 水平。

原创 2022-06-13 10:11:41 · 773 阅读 · 0 评论
论文领读 | DeepMind 发布检索型 LM，或将成为 LM 发展新趋势？

DeepMind最近也入局了NLP模型，上来就是一套「组合拳」，总计三篇论文，我们重点聊一聊第三篇：使用检索增强的方式，不仅减小了模型的参数量，而且效果也非常能打；不失为模型轻量化的又一条路：把模型做成 Open System！...

转载 2022-06-10 13:07:46 · 445 阅读 · 0 评论