自然语言处理
文章平均质量分 79
自然语言处理学习过程中的知识总结
iceburg-blogs
北京邮电大学计算机技术研究生,主要研究方向为自然语言处理,信息抽取,知识图谱。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
EMNLP2020文档级关系抽取模型GLRE 论文Global-to-Local Neural Networks for Document-Level Relation Extraction
文章目录前言1.摘要2.模型2.1编码层2.2全局表示层2.3局部表示层2.4分类层前言这是EMNLP2020一篇文档级关系抽取的论文,代码链接 https://github.com/nju-websoft/GLRE,这篇论文主要有三个亮点:构建了异质图并使用了R-GCN进行特征传播,相较之前一些构建同质图然后做特征传播的模型,使用异质图可以融合更复杂的特征;有一个本地表示层,通过自注意力的计算方式得到一个local entity representation,消融实验证明了这种方式可以提升关系推原创 2020-11-14 11:42:56 · 1687 阅读 · 0 评论 -
EMNLP2020文档级关系抽取模型GAIN 论文Double Graph Based Reasoning for Document-level Relation Extraction
前言这是EMNLP2020一篇文档级关系抽取的论文,代码链接 https://github.com/DreamInvoker/GAIN,其性能相较ACL2020中的文档级关系抽取模型LSR有一定的提升,其能够有提升的主要原因在于两点:1)构建了异质图并使用了R-GCN进行特征传播,相较之前一些构建同质图然后做特征传播的模型,使用异质图可以融合更复杂的特征;2)增加了关系推理层,构建了一个实体图做关系推理。1.摘要文档级关系抽取的目的是提取文档中实体之间的关系。不同于句子层次的关系抽取,文档需要对文档中原创 2020-11-13 21:39:13 · 2162 阅读 · 11 评论 -
命名实体识别Baseline模型BERT-MRC总结
BERT-MRC模型BERT-MRC模型是目前实体识别领域的一个SOTA模型,在数据量较小的情况下效果较其他模型要更好,原因是因为BERT-MRC模型可以通过问题加入一些先验知识,减小由于数据量太小带来的问题,在实际实验中,在数据量比较小的情况下,BERT-MRC模型的效果确实要较其他模型要更好一点。BERT-MRC模型很适合在缺乏标注数据的场景下使用。BERT-MRC模型的理论基础MRC机器阅读理解给定一个文本序列X,它的长度为n,要抽取出其中的每个实体,其中实体都属于一种实体类型。假设该数据集原创 2020-11-11 15:51:22 · 15749 阅读 · 23 评论 -
CCKS2020基于本体的金融知识图谱自动化构建技术评测第五名方法总结
评测任务介绍评测地址CCKS 2020: 基于本体的金融知识图谱自动化构建技术评测链接:https://www.biendata.xyz/competition/ccks_2020_5/评测任务金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是有专业人员撰写,对宏观、行业和公司的数据信息搜集全面、研究深入,质量高,内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识,是构建行业知识图谱非常关键的数据来源。另一方面,由于研报本身所容纳的数据原创 2020-11-10 15:51:11 · 3295 阅读 · 6 评论 -
图神经网络总结(GCN/GAT/GraphSAGE/DeepWalk/TransE)
文章目录图神经网络1 游走类模型1.1 DeepWalk随机游走DeepWalk计算节点向量的方式:1.2 Node2VECnode2vec改进后的随机游走方式:1.3 LINE2 消息传递类模型2.1 GCN2.2 GAT2.3 GraphSageGraphSAGE 的采样方法:GraphSAGE 的聚合函数:Mean aggregatorLSTM aggregatorPooling aggregator2.4 HAT元路径(meta-path)meta-path的数学定义:基于meta-path的邻居N原创 2020-09-24 14:30:54 · 14108 阅读 · 4 评论 -
NLP中的预训练方法总结 word2vec、ELMO、GPT、BERT、XLNET
文章目录一.文本的表示方法基于one-hot的词向量二.基于词向量的固定表征方法(词向量模型)2.1 N-gram模型2.2 NNLM2.3 word2vecCBoWSkip-gram层次Softmax负采样三.基于词向量的动态表征方法(预训练语言模型)3.1 什么是预训练语言模型3.2 预训练语言模型的优点3.3 预训练语言模型的分类自回归语言模型自编码语言模型排列语言模型3.4 几种重要的预训练模型介绍1. ELMO2. GPT3. BERTTask 1: MLMTask 2: NSPBERT的缺点4.原创 2020-08-04 01:42:21 · 3071 阅读 · 0 评论 -
NER中的词汇增强方法(LatticeLSTM、CGN、FLAT、Simple-Lexicon)
文章目录NER中的词汇增强方法Dynamic ArchitectureLatticeLSTMMGLatticeLSTMLR-CNNCGNFLATAdaptive EmbeddingSimple-LexiconNER中的词汇增强方法虽然基于字符的NER系统通常好于基于词汇(经过分词)的方法,但基于字符的NER没有利用词汇信息,而词汇边界对于实体边界通常起着至关重要的作用。如何在基于字符的NER系统中引入词汇信息,是近年来NER的一个研究重点。这种在NER任务中引入词汇的方法又被称为词汇增强。从另一个角度原创 2020-08-03 14:06:12 · 7752 阅读 · 2 评论 -
文档级关系抽取方法总结
文章目录文档级关系抽取将关系抽取由句子级扩展到文档级的原因文档级关系抽取数据集DocRED图神经网络图网络结构的分类GCNGP-GNNGraphRelGCNNEoGLSRDyGIE/DyGIE++文档级关系抽取将关系抽取由句子级扩展到文档级的原因目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真实场景中,大量的关系事实是以多个句子表达的。文档中的多个实体之间,往往存在复杂的相互关系。以下图为例,就包括了文章中的两个关系事实(这是从文档标注的19个关系事实中采原创 2020-07-20 09:28:06 · 8120 阅读 · 5 评论 -
Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction
Introduction大多数现有的事件提取(EE)方法仅提取句子范围内的事件参数。但是,此类句子级的EE方法难以处理来自新兴应用领域(例如金融,法律,健康等)的大量文档,其中事件论元分散在不同的句子中,甚至多个事件实例在同一文档中同时存在。为了应对这些挑战,本文提出了一种新颖的端到端解决方案 Doc2EDAG,该解决方案可以有效地生成基于实体的有向无环图,以实现文档级事件抽取。下面是论文中举出的一个文档例子,左边是一个事件表,右边是该事件表所在的文档。这篇文档有两个股权质押事件记录,其参数分散在多个句原创 2020-07-11 16:42:22 · 1901 阅读 · 1 评论 -
DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Tra
Abstract针对事件抽取(Event Extraction)目前面临着训练数据缺乏和文档级别事件抽取两大问题,文章开创性的提出相应的解决方案。第一,训练数据缺乏。ACE 2005 中,各语言的文档数不过几百篇,对深度学习来说,这样的数据量是不足够的。第二,事件抽取还局限于单个句子。而事实上,一个事件往往涉及到触发词和多种事件元素,触发词和所有的事件元素都出现在同一个句子中的理想情况并不常见,因此篇章级的事件提取非常有必要。下图是论文中给出的一个例子,图中的事件Introduction金融事件对原创 2020-07-11 16:08:33 · 1271 阅读 · 0 评论 -
机器阅读理解(MRC)和问答(QA)在信息抽取中的应用
一 机器阅读理解(MRC)、问答系统(QA)与信息抽取最近实体关系抽取任务和命名实体识别任务的SOTA模型排行榜中,有很多模型使用到了机器阅读理解(MRC)和问答系统(QA)中思想和方法,如HBT、ETL-span、Multi-turn QA和BERT_MRC等,MRC和QA中的思想和方法的使用,让这些模型相比于传统方法有很大提升。在实体关系抽取任务中,最新的一些模型,如HBT和ETL-span,用到了MRC中经常使用的指针网络方法,通过多层标注序列解决实体重叠问题;Multi-turn QA则使用了问原创 2020-06-26 09:44:40 · 6853 阅读 · 4 评论 -
实体关系抽取任务方法及SOTA模型总结
1 实体关系抽取方法思路实体关系抽取是从文本中的句子里抽取出一对实体并给出实体间关系的任务。该任务的输入是一句话,输出是一个spo三元组(subject-predicate-object)。对于实体关系抽取任务,最容易想到的方法就是先抽取句子中的实体,然后在对实体对进行关系分类,从而找出spo三元组,这种思想被称作管道模型(Pipeline)。管道模型把实体关系抽取分成了两个子任务,实体识别和关系分类,两个子任务按照顺序依次执行,它们之间没有交互。在管道模型之后,可以同时进行实体识别和关系分类的联合模型原创 2020-05-31 21:02:08 · 23531 阅读 · 6 评论 -
使用序列标注方法进行关系抽取的相关论文推荐
文章目录序列标注方法与实体重叠问题联合模型与序列标注方法实体重叠问题Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme基于DGCNN和概率图的轻量级信息抽取模型A Novel Hierarchical Binary Tagging Framework for Joint Extraction of E...原创 2020-04-17 16:47:24 · 2573 阅读 · 2 评论 -
关系抽取综述及相关顶会论文介绍
文章目录实体关系抽取简介关系抽取任务关系抽取使用的主要方法基于深度学习的有监督方法流水线模型(1)基于RNN的流水线模型(2)基于CNN的流水线模型(3)基于LSTM的流水线模型联合模型共享参数的联合模型基于序列标注的联合模型基于深度学习的远程监督方法实体关系抽取简介实体关系抽取作为文本挖掘和信息抽取的核心任务,其主要通过对文本信息建模,自动抽取出实体对之间的语义关系,提取出有效的语义知识。其...原创 2020-04-12 23:22:29 · 4745 阅读 · 0 评论 -
论文Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge阅读笔记
本文为ACL19收录文章摘要目前中文关系提取的模式,是使用具有基于字符或基于单词的输入的神经网络进行的,并且大多数现有方法通常会遭受分段错误和多义性的歧义。我们提出了一种用于中文关系提取的多粒度格框架(MG格),以利用多粒度语言信息和外部语言知识的优势。(1)我们将词级信息合并到字符序列输入中,从而避免了分段错误。(2)我们还借助外部语言知识对多义词的多种意义进行建模,以减轻多义的歧义...原创 2020-02-23 11:44:09 · 2404 阅读 · 6 评论 -
AAAI论文Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence阅读笔记
部分内容翻译摘要联合实体和关系提取是使用单个模型同时检测出实体和关系。本文提出了一种新颖的统一联合提取模型,该模型根据查询词位置p直接标记实体和关系标签,即在p处检测实体, 为此,我们首先设计了一种标记方案,为一个n词句子生成n个标记序列,然后引入位置注意机制为每个词产生不同的句子表示形式。 查询位置以对这n个标记序列进行建模。这样,我们的方法可以同时提取所有实体及其类型以及所有重叠关系。引...原创 2020-02-22 11:21:49 · 3122 阅读 · 2 评论
分享