机器学习项目(二) 人工智能辅助信息抽取(九)

关系抽取是建立知识库、扩大知识库和支撑QA系统的重要手段。它包括关系分类和关系抽取,其中关系抽取是二分类问题。常用方法有手工规则、监督学习和半监督学习。监督学习涉及数据标注和多种分类器训练,如MaxEnt、SVM。半监督学习通过少量标注数据和迭代学习扩展模式。深度学习中,PCNN和RNN+Attention模型常用于特征提取,其中PCNN的分段max pooling适合并行处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关系抽取

关系抽取的应用

1.建立新的结构化的知识库
2.扩大现有知识库
3.支持QA系统

关系分类VS关系抽取

关系分类:一般是判断一个句子中两个实体(entity)是哪种关系,属于多分类问题。
关系抽取:从一个句子中判断两个entity是否有关系,一般是一个二分类问题,指定某种关系。

关系抽取方式

1.手写规则
2.监督学习
3.半监督/无监督学习

人工规则

优点:有高准确率、可以为特定领域定制
缺点:低召回率、要考虑周全所有可能的模式(pattern)很难,也很费时间精力需要为每条关系来定意思pattern

监督学习

选择我们想提取的关系集合
选择相关的命名体集合
寻找并标注数据 选择有代表性的语料库 标记命名实体 人工标注实体间的关系 分成训练、开发、测试集
训练分类器:MaxEnt、Naive、Bayes、SVM

半监督学习

利用少量的标注信息进行学习,就bootstrap的方法利用少量的实例作为初始种子(seed tuples)的集合,然后利用pattern学习方法进行学习,通过不断的迭代,从非结构化数据中抽取实例,然后从新学到的实例中学习新的pattern 并扩充pattern集合。

PCNN

深度学习用到的特征通常有:
Word embeddings
Position embeddings
Knowledge embeddings
模型通常有:CNN/RNN+Attention

RNN+Attention

实体多时,需判断的实体对较多。RNN并行计算能力差
在这里插入图片描述

PCNN

分段max pooling 可并行训练与预测
在这里插入图片描述

import tensorflow as tf
sess = tf.InteractiveSession()
# 定义一个常量 4行3列
mask_embedding = tf.constant([[0,0,0],[1,0,0],[0,1,0],[0,0,1]])
# 11是第一段 222是第二段 3333是第三段 后面补一个0
input_mask = tf.constant([[1],[1],[2],[2]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值