文章目录
week9课程内容
Information Extraction (信息抽取)
Information Extraction(信息抽取,简称IE)是一种从自然语言文本中抽取出特定的事件或事实信息的技术,这些信息通常包括实体(entity)、关系(relation)和事件(event)。信息抽取的主要目的是帮助我们将海量内容自动分类、提取和重构,从而方便我们检查、比较和进一步处理这些信息。
1、Named Entity Recognition (NER)命名实体识别
(1)什么是命名实体:
对一个实体的一次引用(提及)。例如:北大、北京大学、PKU
(2)命名实体识别的定义:
找到文本中的命名实体,并给它分类(比如人、组织、地点、时间等等)。
(3)实现 NER 的方法:
-
Rule-based 基于规则:

-
ML-based approaches 使用机器学习方法:
流程:
原始文本 -> 人工标注 -> 标注后的文本 -> 特征提取、IOB编码 -> 得到训练数据集 -> 训练分类器 -> 得到NER模型
具体如下图:

其中,使用IOB标注实体时,对于 N 个类型的实体,一共会有 2N+1 个标签。因为每个实体都有 B(begin)标签和 I(inside)标签,再加上一个公共的 O(outside)标签,一共 2N+1。
(1)Maximum Entropy Markov Model (MEMM):
最大熵马尔科夫模型,会结合上下文单词以及过去已经做出的决策结果,来决定当前的决策结果。如下:


(2)Conditional Random Fields (CRF):
条件随机场,是一种基于概率图的模型,它能够学习出输入和输出之间的映射关系。
(3)Bidirectional LSTM-CRF (BiLSTM-CRF):
双向长短期记忆网络条件随机场,是结合了双向长短期记忆网络和条件随机场的模型。
(4)NER的评估:
是命名实体层面的评估,而不是 token 层面。
其实还是计算 precision、recall、F1 score。
2、Relation Detection and Classification
获得命名实体后,我们就要考虑它们之间的关系。
对于命名实体之间关系的分析,我们将之分为两个步骤:
(1)关系检测:确定实体之间是否有关系,“是”或“不是”。
(2)关系分类:确定关系的类型。
进行关系分析的伪代码如下:

对上面两个任务,我们都要进行命名实体的特征提取,才能继续进行后续模型训练。特征提取一般包括:
(1)命名实体内部的特征:命名实体所包含的单词、内部单词的类型、命名实体的headword关键字
(2)命名实体附近的特征:比如词袋
(3)命名实体的语法特征:比如命名实体之间在句法树上的位置关系
例子:

3、Template Filling 模板填充
模板填充(Template Filling)是一种在文本处理和信息抽取中常用的技术。该技术主要针对文本中描述的经常性、典型性事件或信息结构,通过建立相应的模板,并使用从文本中抽取的适当材料对模板进行填充,从而完成信息的抽取和整理。
补充介绍:IOBES
(B-begin,I-inside,O-outside,E-end,S-single) 多了一个 end 和一个 single。
2932

被折叠的 条评论
为什么被折叠?



