小规模数据量下的关系抽取和实体抽取

写在前面

  • 最近老师派给了我一个任务,让我在短时间内迅速建立起一个电力领域知识图谱,结点与结点之间的关系只有“包含”。
  • 我例行使用平台的一系列算法,即使我把词库换成了我们自己手工标的词库,但是抽到的结果仍然是真的不好~ 不好 ~不好(算法流程因为有一定的隐私性不能透露,大概来讲就是抽取只专注词义而不看语义)。且抽完之后用模板抽关系真的是…………原因其实是平台算法不太适合电力领域,而更适合于人力资源领域。所以我就自己搞了一套流程,效果可以说还不错。

原因分析

  • 先分析领域词抽取不好的原因:相对于人力资源领域,电力领域的领域词更加多种多样,且情况也多种多样(比如有些句子里甚至“榔头”都算是一个领域词,比如有句子……由榔头、电磁板、电机组成),但是有的句子里“榔头”就不是一个领域词了人力资源领域的词大多都偏向概念,形式较为固定,而电力领域词有好一部分都偏向于现实里的物体。这就决定光凭词义是没办法很好的领域词抽取的。
  • 关系抽取不好的原因:像电力领域,比如有句子:“摆脱电流值与人体生理特征、与带电体接触方式以及电极形状等有关。”,现在领域词库里有“电流”、“电流值”、“摆脱电流值”,用模板匹配的时候就会把这些都给算成实体,抽关系的时候就会出来三个元组。可能有人会说用最长匹配不就行了?但实际上没那么简单,比如:“摆脱电流值……电流包含物理电流、化学电流……”正常抽出来的是(电流,包含,物理电流)(电流,包含&#
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值