利用Flickr丰富地点类型分类体系
1. 引言
在地点类型分类体系的研究中,存在避免相似度程度计算的方法,例如使用马尔可夫逻辑学习对象簇和属性簇,使对象在给定簇中的成员资格以高概率确定其是否满足给定簇中的属性,这本质上对应于学习一种特定的布尔相似关系。然而,此方法需要提前知道所有相关属性,与后续要介绍的无监督方法有所不同。接下来将详细介绍如何利用Flickr照片元数据构建地点类型的语义空间,以及如何使用介于关系(betweenness)来丰富地点类型分类体系。
2. 构建地点类型的语义空间
2.1 数据获取
- 数据来源 :最初的数据集通过分析一个包含超过1.05亿张照片的数据库元数据构建而成,该数据库通过Flickr的公开API获取。
- 数据筛选 :
- 丢弃位置不准确(精度等级低于12)、标签过多(超过100个)或过少(少于2个)的照片。
- 将同一用户在同一地点拍摄的照片合并为一个标签列表,避免单个用户对地点表示的过度影响。
- 参考分类体系 :使用了两种现有的地点类型分类体系作为参考:
- GeoNames:将地点类型分为9个类别,涵盖人造特征(如建筑物、铁路)和自然特征(如山脉、森林)。
- Foursquare:同样使用9个顶级类别,主要关注城市人造场所,如餐厅、酒吧和商店。
超级会员免费看
订阅专栏 解锁全文
933

被折叠的 条评论
为什么被折叠?



