论文笔记
要努力的鱼~
梦想不大,道路很长,开始了就不会停下!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【论文笔记】Retrieve, Read, Rerank: Towards End-to-End Multi-Document Reading Comprehension
任务描述多文档阅读理解的抽取式任务,根据给定的一个问题和若干个文档中,找到问题答案。涉及了信息检索、文本问答、答案排序等,总共有三个模块:1.检索模块:从多个文档中召回少量和问题相关的段落内容2.阅读模块:从召回段落中抽取候选答案(单文档的抽取式任务问答)3.答案重排序模块:将多个候选答案重排本篇论文以往的多文档的阅读理解,检索模块、阅读模块、答案重排是独立的,是流水线方法,会面临两个问题:1.流水线方法内中包含若干个独立模块,每个模块都需要重复编码的输入,在处理大规模的文本效率低。2.由于原创 2020-07-30 14:53:00 · 453 阅读 · 1 评论 -
半监督学习
我们真的需要那么多标注数据吗?半监督学习技术近年来的发展历程及典型算法框架的演进文章中的重点获取高质量的有标注数据的成本非常高,有时候对于某些领域可能没有那么足够多的有标注的数据来辅助我们模型的训练,所以我们希望可以通过少量有标注的数据和大量无标注的数据也可以得到效果近似的模型,半监督的学习由此而来。核心问题:如何从无标签数据中获取学习信号来指导监督学习?如何平衡运用有标签数据和无标签数据各自的学习信号?如何选择无标签数据所得根据无标签数据增强得到的语句和原始的无标签语句得到的概率进行原创 2020-07-08 14:52:45 · 329 阅读 · 0 评论 -
最近要读的论文
1.Enhancing Pre-Trained Language Representations with Rich Knowledge for Machine Reading Comprehension2.Commonsense for Generative Multi-Hop Question Answering Tasks3.Dynamic Integration of Background Knowledge in Neural NLU Systems4.Explicit Utilizatio原创 2020-07-01 20:39:27 · 237 阅读 · 0 评论 -
【论文翻译】UNSUPERVISED DATA AUGMENTATION FOR CONSISTENCY TRAINING
用于一致性训练的无监督数据的增强摘要当数据的标签稀缺的时候,半监督学习在改善深度学习的模型上很有效果。在最近的方法中是利用大量的无标签数据去进行一致性训练使得模型的结果预测不受输入的噪声影响。在这项工作中,我们提出了一个观点,如何有效的干扰无标签的 例子,并且使这些由数剧增强产生的噪声保证质量,它们在半监督学习中扮演着重要的角色。通过用先进的数据增强方法代替简单的噪声处理,我们的方法在相同的一致性训练框架下,对6种语言和3种视觉任务都有了显著的改进。在IMDb文本分类的数据集中,仅仅使用了20条有标签的原创 2020-07-01 10:14:51 · 1172 阅读 · 1 评论 -
【论文笔记】Read + Verify: Machine Reading Comprehension with Unanswerable Questions
概述针对前人没有验证所抽取的答案是否合理,本篇论文提出了Read + Verify的结构,首先利用无答案阅读器提取候选答案并检测该问题是否无法回答。然后,它利用答案验证器进一步检查预测答案的合法性。一共分为两步:一个用于提取候选答案和验证无法回答问题的无答案阅读器一个用于决定提取的候选答案是否合法的答案验证器细节无答案阅读器:将有无答案和答案跨度抽取作为同一个任务进行训练,将答案跨度的打分和没有答案的概率进行softmax标准化,计算联合无答案的损失。同时,若无答案的概率超过某个阈值,我们就原创 2020-06-20 15:51:00 · 478 阅读 · 0 评论 -
【论文笔记】Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
为什么引入Bert的蒸馏Bert在很多NLP上的效果都很不错,但是在落实在实际应用上,我们要考虑其所需要的内存空间和计算资源,Bert模型很大,相对来说计算量也很大,不适用于实时的任务当中。所以针对这个问题,我们对Bert模型提出了蒸馏,希望通过蒸馏将Bert的表征能力distill到小模型当中。【注】压缩模型的手段模型蒸馏 distillation用大模型学习到的知识去训练小模型,使小模型具有大模型的效果量化 quantization降低大模型的精度,减小模型剪枝 pruning去掉模型原创 2020-06-15 16:05:39 · 2370 阅读 · 0 评论 -
【论文笔记】Distilling the Knowledge in a Neural Network
为什么出现知识蒸馏集成模型和预训练好的模型效果会很好,但往往都会需要很大的内存空间和计算资源,这样对应用于工业界非常的不友好。所以我们希望压缩模型,使得小模型也能具有和大模型同样好的效果。为了达到这个目的,提出了知识蒸馏的做法。蒸馏的概念知识蒸馏使用的是Teacher-Student模型,原模型为老师(知识的输出者),新模型为学生(知识的学习者),我们的目标是让新模型近似于原模型。知识蒸馏分为2个过程:1. 原模型的训练。原模型可能是参数多,结构复杂,也有可能为多个模型集合而成。先用hard ta原创 2020-06-05 15:50:30 · 391 阅读 · 0 评论 -
【论文笔记】Gated Self-Matching Networks for Reading Comprehension and Question Answering
概述本文提出了门机制和自匹配注意力机制。门机制:原先的做法是将得到的问题注意力向量和文本编码直接送入到RNN中得到新的融入问题的文本表示。但是考虑到文本中的每个词对于问题是有不同的重要程度的,引入了一个门机制,根据与问题的相关程度给文本每个词赋于不同的权重。然后把问题注意力向量和赋予权重后的文本表示送入RNN中得到新的融入问题的文本表示。自匹配注意力机制:self-attention和gate机制的融合对融入问题的新文本表示进行self-attention,加强文本内部之间的联系,并同理运用门机原创 2020-05-18 12:20:36 · 617 阅读 · 0 评论 -
Focal Loss解读
普通的交叉熵函数例如:二分类的交叉熵010.30.7loss=-log0.7Focal Loss相较于标准的交叉熵函数,简单来说就是focal loss函数总共解决了两个方面的问题样本的类别不均衡,比如某个标签的种类数量特别多,而某个标签的数量又特别少。通过设定a的值来控制正负样本对总的loss的共享权重,对于数目多的样本我们分配小的权重。例如:...原创 2020-03-10 17:43:18 · 260 阅读 · 0 评论 -
【论文笔记】Simple and Effective Multi-Paragraph Reading Comprehension
Simple and Effective Multi-Paragraph Reading Comprehension概述对于多段落的文章来说,我们主要有两种方法筛选出文章中最有可能包含答案的段落,然后将这个段落送入模型当中,最后得到答案的位置标签将文本每个段落都送入到模型当中,得到每个段落的答案位置并通过相关算法得到置信度的打分,选择分高的作为答案在这篇论文中提出了一种结合以上两种方...原创 2020-03-02 17:54:20 · 1194 阅读 · 0 评论
分享