自下而上的地名词典:从地理标签的隐式语义中学习
1. 引言与实验设置
为了验证方法的可行性,我们构建了一个应用程序,用于检索和处理发布在Flickr、Panoramio和Picasa3上照片的地理标签。虽然网络上还有其他带有地理标签的内容,如视频、博客文章或维基百科条目,但本实验仅聚焦于照片。照片与现实世界紧密相关,因为每张照片都拍摄于特定地点,且网络上已有大量带地理标签的照片。
通过分析照片的坐标对、拍摄时间以及用户添加的标签,我们能够计算代表特定关键词的地理足迹。从所有检索到的照片标签中提取的关键词集合,会进一步分析以区分地名和无空间关系的标签。我们用该方法构建的存储库对 “Soho”、“Camino de Santiago(圣雅各之路)” 和 “Kilimanjaro(乞力马扎罗山)” 进行查询,并将结果与GeoNames上的相同查询结果进行比较,评估自下而上构建的地名词典在地理足迹完整性和准确性方面是否能与现有地名词典相媲美。
2. 相关工作
2.1 地名词典构建与学习
地名词典是一种知识组织系统,由三元组 (N, F, T) 组成,其中N是地名,F是地理足迹,T是地点类型。由于N、F和T都不是唯一的,所以这三个组件对于完整表示和明确识别一个命名地点是必需的。在构建地名词典时,要明确区分基于可感知特征或惯例的社会构建的地点和其实际指代的现实世界特征。特征类型大多以半正式的词库形式组织,并配有自然语言描述。
现有地名词典通常基于行政当局提供的数据库或合并现有地名词典而开发。近年来,网络上不断增长的信息被视为命名地点知识的宝贵资源。不同学者提出了多种方法来丰富地名词典,例如:
- Jones等人引入
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



