优化元组关系

实体关系抽取是信息抽取的关键任务,包括实体抽取和关系抽取。Pipeline方法因误差累计、实体冗余和交互缺失等问题而受限。关系分类方法如模板匹配、半监督学习和监督学习各有优缺点。远程监督引入噪声,多示例学习、强化学习和预训练机制可缓解此问题。句法分析如成分句法和依存句法分析有助于理解句子结构,语义角色标注关注谓词-论元结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NLP之关系抽取(信息抽取、三元组抽取)(附pytorch代码)

nlp中的实体关系抽取方法总结

实体关系抽取(Entity and Relation Extraction, ERE)是信息抽取的关键任务之一。ERE是级联任务,分为两个任务:实体抽取和关系抽取,如何更好地处理这种类似的级联任务是NLP的一个热点研究方向。

与联合抽取对比,Pipeline方法有哪些缺点?
Pipeline方法旨在先抽取实体,再抽取关系。相比于传统的Pipline方法(??),联合抽取能获得更好的性能。虽然Pipeline方法易于实现,这两个抽取模型的灵活性高,实体模型和关系模型可以使用独立的数据集,并不需要同时标注实体和关系的数据集。但存在以下缺点:
1. 误差累计:实体抽取的错误会影响下一步关系抽取性能。
2. 实体冗余:由于先对抽取的实体进行两两配对,然后再进行关系分类,没有关系的候选实体对所带来的冗余信息,会提升错误率,增加计算复杂度。
3. 交互缺失:忽略了这两个任务之间的内在联系和依赖关系。
注:基于共享参数的联合抽取方法仍然存在训练和推断时的gap,推断时仍然存在误差积累问题,可以说只是缓解了误差累计问题。)

Pipline中的关系分类常见方法:
1. 模板匹配:关系分类中最常见的方法,使用一个模板库对输入文本两个给定实体进行上下文匹配,如果满足模板对应关系,则作为实体对之间的关系。
2. 半监督学习
3. 监督学习:主要分为基于特征、核函数、深度学习三种方法;基于特征的方法需要定义特征集合,核函数不需要定义特征集合、在高维空间进行计算。
模板匹配:
人工模板(什么样子???):主要用于判断实体间是否存在上下位关系。上下位关系的自然语言表达方式相对有限,采用人工模板就可以很好完成关系分类。但对于自然语言表达形式非常多的关系类型而言,这就需要采取统计模板。
统计模板:无须人工构建,主要基于搜索引擎进行统计模板抽取。具体地,将已知实体对作为查询预计,住区搜索引擎返回的前n个结果文档并保留包含该实体对的句子集合,寻找包含实体对的最长字串作为统计模板,保留置信度较高的模板用于关系分类。
基于模板匹配的关系分类构建简单、适合于小规模特定领域,但召回率低、可移植性差,当遇到另一个领域的关系分类需要重新构建模板。
半监督学习
bootstrapping(自举):利用少量的实例作为初始种子集合,然后在种子集合上学习获得关系抽取的模板,再利用模板抽取更多的实例,加入种子集合中并不断迭代。
bootstrapping的优点:构建成本低,适合大规模的关系任务并具备发现新关系的能力,但也存在对初始种子较为敏感、存在语义漂移、准确率等问题。
远程监督:其主要的基本假设是,如果一个实体对满足某个给定关系,那么同时包含该实体对的所有句子(构成一个Bag)都可能再阐述该关系。可以看出,该假设是一个非常强的假设,实际上很多包含该实体对的句子并不代表此种关系,会引入大量噪声。为了缓解这一问题,主要采取【多示例学习】、【强化学习】和【预训练机制】

句法分析:句法分析一般会分为成分句法分析 (Constituency Parsing) 与依存句法分析 (Dependency Parsing) ,借助下图可以清晰地看出两者区别:

前者基于词语结构的文法,后者通过词语间的语法关系的文法。通俗理解就是,前者是从一个句子、分解为若干个词语组、最后到分解到一个单词,建立语法结构分析;后者是通过词语之间的语言学联系,建立语法结构分析。

  • 依存句法分析(Dependence Parsing,DEP):识别语句中词与词之间的依存关系,并揭示其句法结构,包括主谓关系、动宾关系和核心关系等。HanLP-DEP-document
  • 成分句法分析(Constituen:句子的组成成分叫句子成分,也叫句法成分。在句子中,词与词之间有一定的组合关系,按照不同的关系,可以把句子分为不同的组成成分。句子成分由词或词组充当。句法结构分析是指对输入的单词序列(一般为句子)判断其构成是否合乎给定的语法,分析出合乎语法的句子的句法结构。句法结构一般用树状数据结构表示,通常称之为句法分析树(syntactic parsing tree)或简称分析树(parsing tree),而完成这种分析过程的程序模块称为句法结构分析器(syntactic parser),也简称分析器(parser)。

语义角色标注(Semantic Role Labeling,SRL)以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,只分析句子中各成分与谓词之间的关系,即句子的谓词(Predicate)- 论元(Argument)结构,并用语义角色来描述这些结构关系。

HanLP-SRL

了解语义角色标注SRL(Semantic Role Labeling)

 

 

自然语言处理(NLP)一些任务的总结

 

四元组抽取1.0:配置组织和指标名称字典,然后通过字典中的数据抽取出组织和指标对应的时间和指标值,对应的方式包括距离指标最近的数值。例如在建立一张公司名称字典和指标字典(GDP,GDP增长率等)。这样的方式准确率高,但是泛化性不好,遇到字典中没有的指标值,就无法抽取出四元组。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值