20、全球图谱:从维基百科到词汇标记框架的专有名词

全球图谱:从维基百科到词汇标记框架的专有名词

数据来源选择

最初,使用了DBpedia中的法语、英语和西班牙语数据,它是从维基百科提取的数据库,以资源描述框架(RDF)三元组集合管理数据。但该策略有两大缺点:
- DBpedia每六个月更新一次转储文件,更新频率太低,无法满足需求。
- DBpedia的唯一来源是页面右侧用于总结条目的信息框,但很多有趣的页面没有信息框,这些条目在DBpedia中缺失。因此,很快转向了维基百科。

还研究了Freebase,但其内容过于以美国为中心。像记者这类人群的分类在特定语言和国家较为特殊,除了为CNN或BBC工作的少数名人外,很多其他人物在Freebase中没有记录。例如,2012年11月,政治记者阿卜杜拉·图拉比(撰写关于伊斯兰主义者与摩洛哥国王关系的论文)在法语维基百科中有条目,但Freebase中没有相关记录。

全球图谱中约有一百万个名称,其主要特点不在于条目的数量,而在于列表必须不断更新以符合“信息现实”,但手动更新列表的人力成本太高。内容根据新闻频率每周或每两周下载一次,通常每两周更新一次,有重要新闻时每周更新。目前,平均每周新增约2000个名称,但并非收录所有名称。

类型本体

每个名称都被分配一个或多个类型。这些类型由一小群专家(其中一些在词典和百科全书设计方面有超过40年经验)通过内省(即手动)组织成一个包含1034个节点的层次结构。该本体相当稳定,平均每月修改不到一次。

例如,“利奥·梅西”被标记为足球运动员,“大卫·杜耶”则被标记为柔道运动员和政治家。不过,对于给定时间段内的角色和职能没有进行细粒度的描述。大卫·杜耶曾经是(现在仍然是)著名的柔

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值