全球图谱:从维基百科到词汇标记框架的专有名词
数据来源选择
最初,使用了DBpedia中的法语、英语和西班牙语数据,它是从维基百科提取的数据库,以资源描述框架(RDF)三元组集合管理数据。但该策略有两大缺点:
- DBpedia每六个月更新一次转储文件,更新频率太低,无法满足需求。
- DBpedia的唯一来源是页面右侧用于总结条目的信息框,但很多有趣的页面没有信息框,这些条目在DBpedia中缺失。因此,很快转向了维基百科。
还研究了Freebase,但其内容过于以美国为中心。像记者这类人群的分类在特定语言和国家较为特殊,除了为CNN或BBC工作的少数名人外,很多其他人物在Freebase中没有记录。例如,2012年11月,政治记者阿卜杜拉·图拉比(撰写关于伊斯兰主义者与摩洛哥国王关系的论文)在法语维基百科中有条目,但Freebase中没有相关记录。
全球图谱中约有一百万个名称,其主要特点不在于条目的数量,而在于列表必须不断更新以符合“信息现实”,但手动更新列表的人力成本太高。内容根据新闻频率每周或每两周下载一次,通常每两周更新一次,有重要新闻时每周更新。目前,平均每周新增约2000个名称,但并非收录所有名称。
类型本体
每个名称都被分配一个或多个类型。这些类型由一小群专家(其中一些在词典和百科全书设计方面有超过40年经验)通过内省(即手动)组织成一个包含1034个节点的层次结构。该本体相当稳定,平均每月修改不到一次。
例如,“利奥·梅西”被标记为足球运动员,“大卫·杜耶”则被标记为柔道运动员和政治家。不过,对于给定时间段内的角色和职能没有进行细粒度的描述。大卫·杜耶曾经是(现在仍然是)著名的柔
超级会员免费看
订阅专栏 解锁全文
51

被折叠的 条评论
为什么被折叠?



