实体解析与语义相关性的实践探索
1. 实体解析案例
1.1 足球文本中的球员解析
在处理西班牙联赛足球比赛亮点的文本描述时,我们的目标是明确视频中提及的球员,以便用于语义搜索应用,让用户能更精准地检索到喜欢球员的视频。
初始尝试
我们首次使用 Knowledge Tagger 系统,结合 DBpedia 作为实体词库和证据知识图谱。但结果并不理想,精确率为 60%,召回率为 55%。同时,我们使用 AIDA 系统(基于 YAGO 知识图谱)进行对比,得到的精确率为 62%,召回率为 58%。
问题诊断
为找出表现不佳的原因,我们计算了 100 篇文本诊断数据集的歧义性和证据充分性指标。主要的歧义类型包括目标实体歧义(多名球员名字相似)和目标与非目标实体歧义(文本中的球员名字与其他 DBpedia 实体相似)。具体指标如下表所示:
| 指标 | 值 |
| — | — |
| 词汇歧义 | 1% |
| 目标实体歧义 | 30% |
| 目标到非目标实体歧义 | 56% |
| 非目标到目标实体歧义 | 4% |
| 全局歧义 | 2% |
优化操作
基于这些指标,我们对 DBpedia 进行了修剪,移除了大部分与足球无关的实体以及一些无证据价值的球员关系。通过计算知识图谱中球员关系的文本流行度,我们发现球员与当前球队、当前队友和当前教练的关系最为流行且对消歧有用,因此保留了这些关系,舍弃了其他关系。具体流行度如下表:
| 关系 | 流行度 |
| — | — |
|
超级会员免费看
订阅专栏 解锁全文
112

被折叠的 条评论
为什么被折叠?



