一、什么是信息抽取?
信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。(来自百度公司官方)
二、简要介绍一下基于CNN的关系抽取模型:
在此之前,关系抽取领域中多采用基于机器学习的方法,这些机器学习的方法依赖于手动提取的特征。而我们手动提取的特征来自于NLP系统或工具,这些工具难免有其局限性,会带入错误,这些错误会在关系抽取的任务中传播。
于是提出了利用卷积神经网络提取特征的方法,避免了手动的特征提取,利用神经网络实现了端到端的关系抽取。
结构:
输入:一段话,并指明了其中的实体;
输出:一个特征向量,表明了实体间的关系;
中间层:
-
词嵌入
根据预先训练好的词向量字典,将每个词语转化为对应的固定维度向量。(词向量表征了词之间的语义关系) -
特征抽取
此模型的特征抽取分为两个层面:词语和句子。
词语级特征抽取:主要分为三个部分:该词语本身、该词语左右的词、该词语的上位词。
什么是上位词?
上位