跨语言知识提取与本体对齐可视化探索
多语言维基百科摘要关系提取
在从维基百科摘要中进行关系提取时,多语言的应用能带来显著的知识扩展。虽然大多数语言能学习到一定数量的模型,但提取的陈述数量平均比英语少一个数量级。不过,多语言提取额外增加的关系数量相当可观。仅英语能提取约 100 万条关系,而前 12 种语言可提取 160 万条关系,从单英语提取到多语言提取增加了约 60%。
不同语言提取的陈述数量存在差异。例如,俄语和宿务语提取的陈述数量特别低。宿务语由于与英语的跨语言链接数量少,只能学习到少量高质量模型;俄语虽能学习到较多高质量模型,但这些模型大多用于提取奇特关系,实用性不高。而且,提取的陈述数量与对应维基百科的相对规模不成正比,如瑞典维基百科规模超过英语的一半,但提取的陈述数量是英语的 1/28。
提取非英语语言陈述数量少的原因在于,只有当文章及其摘要中链接的实体在规范英语 DBpedia 中有对应时才会生成候选。以瑞典语为例,实体链接到英语维基百科的概率仅为 0.176,那么一个候选中主体和客体都链接到英语维基百科的概率为 0.176×0.176 = 0.031,这与瑞典语和英语提取陈述数量的比例(0.036)相近。实际上,每种语言提取的陈述数量与该语言版本和英语维基百科之间链接数量的平方的皮尔逊相关系数为 0.95,这表明陈述数量少主要是由于维基百科中跨语言链接缺失,而非方法本身的缺陷。
以下是不同语言提取陈述数量相关情况的表格示例:
| 语言 | 与英语链接概率 | 提取陈述数量比例 |
| — | — | — |
| 瑞典语 | 0.176 | 0.036 |
超级会员免费看
订阅专栏 解锁全文
77

被折叠的 条评论
为什么被折叠?



