
NLP的知识库
文章平均质量分 95
这里会记录读到的一些和nlp相关的论文以及一些个人的想法,希望和大家多交流。
fond_dependent
follow your deream,follow your code
展开
-
我们谈一下标签正则化(标签平滑、知识蒸馏、知识精炼)
0. 引言关于正则化,大家都非常熟悉。深度神经网络由于其强大的特征提取能力,近年来在各种任务中得到了广泛而成功的应用。然而,DNN通常包含数以百万计的可训练参数,这很容易导致过拟合问题。为了解决这个问题,已经开发了许多正则化方法,包括参数正则化(例如dropout)、数据正则化(例如数据增强)和标签正则化(例如标签平滑),以避免过度拟合问题。原创 2022-04-29 17:34:10 · 4310 阅读 · 1 评论 -
GNN中如何利用置信度和不确定性做文章
0. 引言目前图神经网络存在很多的问题,这里作者提出了两个,一个是过平滑,另外一个是对预测结果的不确定性进行评估,换句话说希望预测的结果不仅仅是一个结果,如果有一个置信度就更好了,比如疾病预测,预测了影像目前是什么病,有一个置信度是不是会更有价值一些呢?之前很少有人探讨过GCN背景下的置信度估计,这篇博客将看看仅这些工作是如何做的?1. Confidence-based Graph Convolutional Networks for Semi-Supervised Learning(AISTATS原创 2020-12-01 20:28:17 · 2027 阅读 · 1 评论 -
浅谈贝叶斯网络以及贝叶斯网络处理模型不确定性
1. 贝叶斯定理贝叶斯定理是关于随机事件 A 和 B 的条件概率:其中P(A∣B)P(A|B)P(A∣B)是在 B 发生的情况下 A 发生的可能性。P(A)是 A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。P(A|B)是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。P(B|A)是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B 的后验概率。P(B)是 B 的先验概率,也作标淮化常量(normalizing con原创 2020-12-01 16:56:03 · 6137 阅读 · 0 评论 -
图神经网络(GCN)中的过度平滑(over-smooth)问题以及 multi-hops解决思路
0. 图神经网络(GCN)中的过度平滑(over-smooth)问题什么叫做图神经网络的过渡平滑问题?即在图神经网络的训练过程中,随着网络层数的增加和迭代次数的增加,每个节点的隐层表征会趋向于收敛到同一个值(即空间上的同一个位置)。不是每个节点的表征都趋向于收敛到同一个值,更准确的说,是同一连通分量内的节点的表征会趋向于收敛到同一个值。这对表征图中不通簇的特征、表征图的特征都有好处。但是,有很多任务的图是连通图,只有一个连通分量,或较少的连通分量,这就导致了节点的表征会趋向于收敛到一个值或几个值的问题。原创 2020-11-30 15:06:29 · 22960 阅读 · 5 评论 -
【BERT蒸馏】DistilBERT、Distil-LSTM、TinyBERT、FastBERT(论文+代码)
引言原创 2020-10-24 11:23:10 · 7963 阅读 · 2 评论 -
Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy (ECAI2020)
0. 引言1. 摘要实体和关系联合提取的目的是利用单一模型检测实体对及其关系。以往的工作通常采用先提取后分类或统一标注的方式来解决这个问题。但是,这些方法在提取实体和关系的过程中要么存在冗余实体对,要么忽略了重要的内部结构。针对这些局限性,本文首先将联合抽取任务分解为两个相互关联的子任务,即HE抽取和TER抽取。前一个子任务是区分所有可能涉及到目标关系的头实体,后一个子任务是识别每个提取的头实体对应的尾实体和关系。然后,基于我们提出的基于span的标记方案,将这两个子任务进一步分解为多个序列标记问题,并原创 2020-10-15 11:05:41 · 2848 阅读 · 0 评论 -
关系抽取RE的一些最新论文解读(三)
文章目录0. 引言1. A General Framework for Information Extraction using Dynamic Span Graphs (NAACL2019)2. Entity, Relation, and EE with Contextualized Span Representations(emnlp2019)3. CopyMTL: Copy Mechanism for Joint Extraction of Entities and Relations with Mu原创 2020-10-08 09:12:40 · 3253 阅读 · 0 评论 -
多重关系抽取(Multiple-Relations)的一些最新顶会论文(海量论文,干货满满)
0. 引言1. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction(ACL 2020)1.1 摘要从非结构化文本中提取关系三元组是构建大规模知识图的关键。然而,现有的研究在**解决同一句子中的多个关系三元组共享相同实体的重叠三元组问题**上很少有出色的成果。在这项工作中,我们引入了一个新的视角来重新审视关系三元提取任务,并提出了一个新的级联二元标记框架(CASREL),该框架源于一个原则性的问题公式。我们的原创 2020-10-04 21:00:20 · 6032 阅读 · 1 评论 -
文档级(Document-level)关系抽取(RE)目前的一些最新进展(海量论文,干货满满)
0. 引言摘要关系抽取是从纯文本中提取未知关系事实,并将其添加到知识图中,是自动构建大规模知识图的关键任务。1. multi-task: NER+RE1.1 Simultaneously Linking Entities and Extracting Relations from Biomedical Text Without Mention-level Supervision(AAAI 2020)3. Document Level3.1...原创 2020-09-28 20:59:03 · 7691 阅读 · 5 评论 -
长文本或者文档级别的关系提取任务 SCIREX: A Challenge Dataset for Document-Level Information Extraction (ACL2020)
0. 引言1. 摘要从完整的文档中提取信息在许多领域都是一个重要的问题,但是大多数以前的工作都集中在识别句子或段落中的关系上。在文档级创建大规模信息提取数据集是一项挑战,因为它需要理解整个文档,以注释实体及其文档级关系,这些关系通常跨越句子甚至章节。在本文中,我们介绍了SCIREX,一个文档级的IE数据集,它包含多个IE任务,包括显著实体识别和来自科学文章的文档级N元关系识别。我们利用现有的科学知识资源,通过集成自动和人工标注来标注数据集。我们开发了一个神经模型作为强基线,将以前最先进的IE模型扩展到文原创 2020-09-28 09:09:06 · 1922 阅读 · 2 评论 -
深入了解什么是信息抽取Information Extraction以及如何做IE(NER+关系抽取)更新ing
0. 引言信息抽取虽然现在做的不是很成熟,但是在我们工作中会经常用到。特别的是将一些非结构化数据转化为结构数据。其实很多信息抽取的工作都是人工做的,人工+自动化是主要潮流。信息抽取涉及到几个方面内容:命名实体识别、文本特征工程、关系抽取(基于规则/监督学习)。还有一些比较细的操作,例如实体消岐、实体统一、指代消解、句法分析等等。1. 信息抽取概要信息化抽取最重要的是如何将非结构化数据提取关键信息变为关键数据,例如图片、视频、文本、语音等等我们可以通过一些模型整理成有结构的数据库形式,即结构化数据。原创 2020-09-23 11:06:57 · 4346 阅读 · 0 评论 -
文本领域的数据预处理技术、深度学习训练技巧以及Debug经验
0. 引言1. 文本领域的数据预处理技术1.1 文本纠错1.2 低频词处理1.3 停用词1.4 关键词提取1.5 短语提取1.6 文本数据增强2. 深度学习训练技巧2.1 学习率调整2.2 梯度修正2.3 参数初始化2.4 归一化3 . 深度学习Debug...原创 2020-09-03 16:16:29 · 5724 阅读 · 2 评论 -
Seq2seq模型详解(attention mechanism+evaluation methods +Curriculum +Machine Translation)
引言Seq2seq Frameworkattention mechanismBLEUROUGEevaluation methodstraining mechanismMachine Translation原创 2020-09-02 11:01:26 · 1799 阅读 · 0 评论 -
卷积神经网络(CNN)的进化史以及常用的CNN框架
引言原创 2020-08-31 17:04:48 · 2901 阅读 · 0 评论 -
深度神经网络(DNN)&& 卷积神经网络(CNN)
引言原创 2020-08-31 17:02:24 · 4828 阅读 · 0 评论 -
记录一些Pytorch方便的函数<即插即用>
引言Pytorch自己有一些函数可以实现很复杂的一些功能,自己以前想创建一个tensor,经常傻乎乎的创建一个空Tensor,然后再慢慢调整,不但不美观,而且有的时候时间复杂度很高。这个博客记录了一些Pyrotch的很方便的函数,想实现某个功能时,可以去查阅一下有没有一步到位的函数。TORCH.FULLtorch.full(size, fill_value, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=F原创 2020-08-30 23:16:30 · 416 阅读 · 0 评论 -
Beam Search的学习笔记(附代码实现)
引言原创 2020-08-30 10:57:01 · 11229 阅读 · 9 评论 -
文本生成任务之营销文本生成(Seq2seq+attention、Pointer Generator Network、Converage、Beam Search、优化技巧、文本增强)
引言文本生成(Text Generation)具体可以细分成文本摘要、机器翻译、故事续写等几种任务。本项目主要用到的是文本摘要(Summarization)的技术。我们生成摘要的方式是选取其中关键的句子摘抄下来。相反,生成式摘要则是希望通过学习原文的语义信息后相应地生成一段较短但是能反应其核心思想的文本作为摘要。生成式摘要相较于抽取式摘要更加灵活,但也更加难以实现。本项目我们将会先用生成式摘要的方法构建一个 Seq2seq+Attention的模型作为 baseline,然后构建一个结合了生成式和抽取式原创 2020-08-29 15:07:29 · 10498 阅读 · 56 评论 -
对于数据不平衡问题的处理
引言原创 2020-08-12 21:24:50 · 2959 阅读 · 1 评论 -
Transformer的个人笔记
引言Google的论文《Attention is all you need》一提出,为nlp的很多任务翻开了新的一页。无论是知乎还是博客上都有很多生动具体的见解,我这里会结合自己阅读论文以及代码实现,对Transformer的一些个人理解和个人思考。先来看一下这篇论文的摘要传统的Seq2seqRNN网络存在很明显的缺点:首先很难像CNN一样并行化处理,这样无法捕捉并行化特征其次很难想CNN一样做的很深,像CNN一样做很多层在RNN中实现效果不好。长距离依赖TransformerTran原创 2020-08-09 19:58:42 · 623 阅读 · 0 评论 -
初探句法分析
#引言原创 2020-08-06 23:04:55 · 1304 阅读 · 0 评论 -
由浅入深尝试图书分类任务实战(特征工程+GBDT、机器学习模型、深度学习模型)
引言在本项目中,我们主要来解决文本单标签的任务。数据源来自于京东电商, 任务是基于图书的相关描述和图书的封面图片,自动给一个图书做类目的 分类。这种任务也叫作多模态分类。在这个实战中,我掌握学习到以下的代码实践:文本特征提取:任何建模环节都需要特征提取的过程,你将会学到如何使用 tfidf、wor2vec、FastText 等技术来设计文本特征。图片特征提取:由于项目是多模态分类,图片数据也是输入信号的一 部分。你可以掌握如何通过预训练好的 CNN 来提取图片的特征, 并且结合文本向量一起使用。原创 2020-07-31 16:32:36 · 9892 阅读 · 17 评论 -
Syntax- and Execution-Aware SQL Generation with Reinforcement Learning (记EMNLP2019一次投稿)
引言我们那一篇ACL2019的论文简单介绍了什么叫做Text-to-SQL任务,文本到SQL任务的目的是将自然语言语句映射为结构化的SQL查询。很多工作都是关注于如何生成一个SQL语句,而没有关注怎样可以更高效的利用数据库信息以及SQL模板来指导SQL的生成。前人有一个工作是Execution-Guided Decoding,核心思想是使用部分程序的执行结果来筛选过滤出无法完成的结果以获得正确答案(见下图)。我们在这次工作中在考虑知识库结构( knowledge bases )和SQL查询语法(synta原创 2020-07-28 19:25:39 · 2443 阅读 · 0 评论 -
日常遇到的小问题(更新到 2020/09/01)
为什么FastText没有考虑语序,然而效果仍然很好?FastText其实也是用了一种词袋模型,语序的特征确实没有考虑,不过鉴于CNN在文本分类的表现也比较优秀,对于分类任务,我觉得上下文的特征还是比语序的特征更加重要。如何理解LDA VS PLSAPLSA中,主题分布和词分布都是唯一确定的。但是,LDA的作者们采用的是贝叶斯派的思想,认为它们应该服从一个分布,所以主题分布和词分布是不确定的。这里相当于抛硬币,对于PLSA,所以这个参数是固定的唯一的;而贝叶斯学派(LDA)看来 事实上有很多很多硬币原创 2020-07-27 17:55:51 · 444 阅读 · 0 评论 -
Pointer Network指针网络
Why Pointer NetworkStructure of Pointer NetworkHow to process language generation by incorporating Pointer NetworkGet To The Point: Summarization with Pointer-Generator NetworksCopyNetProduct abstract generation through pointer network原创 2020-07-25 11:19:07 · 18415 阅读 · 4 评论 -
LDA文本主题模型的学习笔记
引言LDA简介一些你需要了解的数学知识如何理解LDALDA的一些参数设计如何求解LDA(Gibbs Sampling和变分推断)PLSA 和 LDA 的区别原创 2020-07-24 23:32:08 · 5322 阅读 · 2 评论 -
Transition-based Graph Generation For Text-to-SQL Task 文本生成SQL(记ACL2019一次投稿)
引言原创 2020-07-23 18:38:21 · 4606 阅读 · 4 评论 -
深入浅出语言模型(四)——BERT的后浪们(RoBERTa、MASS、XLNet、UniLM、ALBERT、TinyBERT、Electra)
引言上一节我们讲到了BERT,如果要用一句时下正流行的话来形容 BERT 的出现,这句话大概再恰当不过: 一切过往, 皆为序章。 Bert出现之后,研究者们开始不断对其进行探索研究,提出来各式的改进版,再各类任务上不断超越Bert。针对Bert的改进,主要体现在增加训练语料、增添预训练任务、改进mask方式、调整模型结构、调整超参数、模型蒸馏等。下面对近年来Bert的改进版本的关键点做叙述。上一章说了BERT模型存在一些缺点。所以,AR方式所带来的自回归性学习了预测 token 之间的依赖,这是原创 2020-07-22 10:29:10 · 4498 阅读 · 0 评论 -
深入浅出语言模型(三)——语境化词向量表示(CoVe、ELMo、ULMFit、GPT、BERT)
引言上一节我们讲到了什么叫做静态词向量,静态词向量有个很大的特点就是每个词的表示是固定的,这样就不能解决我们人类语言中的一词多义问题,例如“I hurt my back, while I backed my car”,这句话中前一个"back"是一个名词,表达“后背”的意思;后一个“back”是动词,表达“倒车”的意思。所以这两个词向量应该是不一样的,应该考虑上下文来确定某个词在一个句子中表达什么意思,这样上下文词向量,也叫语境化词向量就应运而生了。Contextualized Embedding(语境原创 2020-07-21 11:09:00 · 7136 阅读 · 5 评论 -
深入浅出语言模型(二)——静态语言模型(独热编码、Tf-idf、word2vec、FastText、glove、Gussian Embedding、Pointcare Embedding )
引言上一节讲述了我们的语言模型,什么是语言模型以及如何得到语言模型还有一些语言模型有趣的应用。对于我们一句话来说,我们需要对其进行特征表示。通俗点来说就是要将其转换成一个向量的形式。那么我们如何将一个句子或者一个词语转化成向量呢,这就是我们今天所要学习的内容——词向量,当我们得到词向量后,我们就可以对一个句子进行特征工程从而得到句子的特征表示。静态词向量static embedding独热编码独热编码是最古老的一种词向量的编码形式,简单来说就是一种0-1表示。对于某个单词,去词库里寻找这个单词所对应原创 2020-07-20 16:48:53 · 7481 阅读 · 5 评论 -
深入浅出语言模型(一)——语言模型及其有趣的应用
引言词向量模型应该是任何一个NLP工程师都应该掌握的基础。还记得17年刚在实验室实习开始接触时,大家都一直在用word2vec。到了18年在公司实习时,实验大多基于glove模型。到了现在Bert大热,各种基于Bert的词向量模型层出不穷,在各个任务各显神威。最近由系统的学习了下词向量模型,发现其实每个词向量背后都蕴藏着很直观的思想或者很优美的数学推理,我相信对我们现在一些任务都会有启发。在这里记录一些自己的学习心得,如有不当之处,还望指教,多多交流。在这个(一)里主要记录的是一些词向量的远古模型。包括原创 2020-07-09 16:20:57 · 3284 阅读 · 2 评论 -
Efficient Large-Scale Multi-Modal Classification 多模态学习论文阅读
引言多模态问题我们应该不会陌生。Efficient Large-Scale Multi-Modal Classification(AAAI2018)摘要早期的互联网主要是基于文本的,但现代数字世界正变得越来越多模式。这里,我们研究多模态分类,其中一个模态是离散的,例如文本;而另一个是连续的,例如从卷积神经网络传输的视觉表示。我们关注的场景是,我们必须能够快速地对大量数据进行分类。研究了实现多模态融合的各种方法,并分析了它们在分类精度和计算效率方面的优缺点。我们的研究结果表明,即使使用简单的融合方法,原创 2020-07-02 09:50:10 · 2022 阅读 · 0 评论 -
借助BERT完成Text-to-SQL任务
@TOC借助BERT完成Text-to-SQL任务的encoder借助BERT完成Text-to-SQL任务的encoder已经完成了BERT的环境安装,下面想借助BERT和Pointer-networks来验证BERT的作用和效果。前人做法BERT Encoder作者认为Glove还有ELMo效果有限,采用BERT来做一个输入的编码。在这里,作者将BERT应用在question和...原创 2019-04-03 15:38:17 · 3904 阅读 · 0 评论