写在前面
- 最近老师派给了我一个任务,让我在短时间内迅速建立起一个电力领域知识图谱,结点与结点之间的关系只有“包含”。
- 我例行使用平台的一系列算法,即使我把词库换成了我们自己手工标的词库,但是抽到的结果仍然是真的不好~ 不好 ~不好(算法流程因为有一定的隐私性不能透露,大概来讲就是抽取只专注词义而不看语义)。且抽完之后用模板抽关系真的是…………原因其实是平台算法不太适合电力领域,而更适合于人力资源领域。所以我就自己搞了一套流程,效果可以说还不错。
原因分析
- 先分析领域词抽取不好的原因:相对于人力资源领域,电力领域的领域词更加多种多样,且情况也多种多样(比如有些句子里甚至“榔头”都算是一个领域词,比如有句子……由榔头、电磁板、电机组成),但是有的句子里“榔头”就不是一个领域词了。人力资源领域的词大多都偏向概念,形式较为固定,而电力领域词有好一部分都偏向于现实里的物体。这就决定光凭词义是没办法很好的领域词抽取的。
- 关系抽取不好的原因:像电力领域,比如有句子:“摆脱电流值与人体生理特征、与带电体接触方式以及电极形状等有关。”,现在领域词库里有“电流”、“电流值”、“摆脱电流值”,用模板匹配的时候就会把这些都给算成实体,抽关系的时候就会出来三个元组。可能有人会说用最长匹配不就行了?但实际上没那么简单,比如:“摆脱电流值……电流包含物理电流、化学电流……”正常抽出来的是(电流,包含,物理电流)(电流,包含&#