实体识别和扩展
在文本中对实体的引用可以有三种形式:
- 命名性指称
- 名词性指称
- 名词性指称
例如:中国乒乓球男队主教练刘国梁出席了会议,他布置了备战世乒赛的具体安排。
中国乒乓球男队主教练是名词性指称
刘国梁是命名性指称
他是代词性指称
这里主要研究命名性实体
实体识别
任务概述
识别出文本中实体的命名性指称项,标注其类别。
三大类:实体类,时间类,数字类
七小类:人名,地名,组织名,时间,日期,货币和百分比
1.实体识别的难点
时间,日期,货币和百分比的构成有比较明显的规律,识别起来相对容易
人名、地名和组织名用字灵活,识别的难度也大。这里指的是这三类的识别
包括两部分:
- 识别实体边界
- 确定实体类别
难点在于: - 命名实体形式多变
内部结构复杂,对中文来说尤其如此- 人名
包含姓氏和名,姓的用字是有限制的,但是名的用法灵活。还有很大其他的形式,使用字号代替人,姓+前缀/后缀以及职务名代替人。如杜甫,杜子美,子美是同一个人,李杜则是一个简称。 - 地名
若干个字组成,可能包括作为后缀的关键字。也有一些简称。如:湖北,湖北省,鄂 - 机构名
可以包含命名性成分,修饰性成分,表示地名的成分以及关键词成分。如北京百得投资咨询公司
机构名嵌套子机构名,北京大学附属小学
简称形式,中国奥委会
- 人名
- 命名实体的语言环境复杂
在不同语境下可能就不是实体
人名:彩霞,有时是人名,有时是自然现象
地名:河南,有的是省名,有的是泛指
机构名:新世界,有时是机构名,有时是短语
英语有明显的标志,如首字母大写,识别边界容易,但是中文没有,相比 - 英文有明显的词边界标志符
- 首字母大写
基于规则的实体识别方法
- 基于命名实体词典的方法
采用字符串完全匹配或部分匹配的方式
基于正向最大匹配的方法
基于逆向最大匹配的方法
基于最短路径的方法 - 缺点
专家
规则冲突
根据优先级排序
通用性不强
基于机器学习的实体识别–基于特征的方法
计算概率值,鲁棒性好,构建代价小
主要是应用传统的人工设计的大量特征进行实体识别
而基于神经网络是自动捕获特征
无论何种模型,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征,包括词形,词性和角色级特征
基本步骤:
- 特征选取
词性,大小写,词缀信息 - 模型学习
根据具体的任务和需求选择
比如:支持向量机、最大熵模型,隐马尔科夫模型以及条件随机场等,多模型也可以联合使用。 - 样本预测
利用训练好的模型,对输入样本进行标注预测 - 后处理
最广泛的是基于字的模型,代表性的方法有CRF。
crf
crf计算联合概率分布的概率图模型。输入的预测值标记为BIO
如果是人名,地名,组织名加上标签。
无向图G(V,E)
V是顶点,E是边,X是输入序列,Y是输出序列。
数学表达式为:
t,s为特征函数,t表示观察序列的标记序列位置i-1和i之间的转移特征函数。p是i位置状态特征函数。
- 特征函数集
特征函数,状态特征函数和转移特征函数,都是二值函数,0或1 上下文和词性特征 - 模型参数估计
估计模型参数,估计权重 - 命名实体标注
每个节点是每个预测值的不同取值。通过寻找网络中的最大概率的路径来确定输出的命名实体标记。动态规划方法,维特比方法。
基于机器学习的实体识别–基于神经网络的方法
- 特征表示
lstm - 模型训练
softmax分类,但是忽略了约束,如O之后不能接I,接入CRF - 模型分类
细粒度实体识别
- 细粒度特点
- 类型更多
- 类别具有层次结构
- 难点
- 类别制定
- 语料的标注
- 实体识别的方法
实体扩展
种子实体,获取同类实体的方法
Google 后台维护大量的开发类别命名实体列表来提高用户体验。典型应用包括:
- 知识图谱中同类实体的检索和推荐
- 提高查询分析的准确率
- 辅助文档分类
- 辅助用户行为分析与广告精准投放
实体扩展方法
- 种子处理模块
输入若干种子组成的初始种子集合,输出高质量种子组成的集合 - 实体抽取模块
抽取目标实体,打分排序,输入种子,输出排序后的实体列表 - 结果过滤模块
实体抽取的方法有: - 基于模块的实体抽取
好的模板出现次数频繁,总是指示目标类别的实体,可以在不需要其他知识前提下在文本中被识别出来 - 基于统计学习的实体抽取
- 基于上下文相似的方法
- 融合模板和上下文相似的方法
- 种子处理与结果过滤
bootstapping
错误放大