21、实体解析与语义相关性的实践探索

实体解析与语义相关性的实践探索

1. 实体解析案例

1.1 足球文本中的球员解析

在处理西班牙联赛足球比赛亮点的文本描述时,我们的目标是明确视频中提及的球员,以便用于语义搜索应用,让用户能更精准地检索到喜欢球员的视频。

初始尝试

我们首次使用 Knowledge Tagger 系统,结合 DBpedia 作为实体词库和证据知识图谱。但结果并不理想,精确率为 60%,召回率为 55%。同时,我们使用 AIDA 系统(基于 YAGO 知识图谱)进行对比,得到的精确率为 62%,召回率为 58%。

问题诊断

为找出表现不佳的原因,我们计算了 100 篇文本诊断数据集的歧义性和证据充分性指标。主要的歧义类型包括目标实体歧义(多名球员名字相似)和目标与非目标实体歧义(文本中的球员名字与其他 DBpedia 实体相似)。具体指标如下表所示:
| 指标 | 值 |
| — | — |
| 词汇歧义 | 1% |
| 目标实体歧义 | 30% |
| 目标到非目标实体歧义 | 56% |
| 非目标到目标实体歧义 | 4% |
| 全局歧义 | 2% |

优化操作

基于这些指标,我们对 DBpedia 进行了修剪,移除了大部分与足球无关的实体以及一些无证据价值的球员关系。通过计算知识图谱中球员关系的文本流行度,我们发现球员与当前球队、当前队友和当前教练的关系最为流行且对消歧有用,因此保留了这些关系,舍弃了其他关系。具体流行度如下表:
| 关系 | 流行度 |
| — | — |
|

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值