【0-2】基于CNN的信息抽取模型

一、什么是信息抽取?

信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。(来自百度公司官方)

二、简要介绍一下基于CNN的关系抽取模型

在此之前,关系抽取领域中多采用基于机器学习的方法,这些机器学习的方法依赖于手动提取的特征。而我们手动提取的特征来自于NLP系统或工具,这些工具难免有其局限性,会带入错误,这些错误会在关系抽取的任务中传播。

于是提出了利用卷积神经网络提取特征的方法,避免了手动的特征提取,利用神经网络实现了端到端的关系抽取。

结构:
在这里插入图片描述
输入:一段话,并指明了其中的实体;
输出:一个特征向量,表明了实体间的关系;

中间层:

  1. 词嵌入
    根据预先训练好的词向量字典,将每个词语转化为对应的固定维度向量。(词向量表征了词之间的语义关系)

  2. 特征抽取
    此模型的特征抽取分为两个层面:词语和句子。
    词语级特征抽取:主要分为三个部分:该词语本身、该词语左右的词、该词语的上位词。
    什么是上位词?
    上位

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值