基于地理标签隐式语义构建自下而上的地名词典
1. 地名词典映射与分类
从地理标签推导地名词典条目,虽能增强地名到地理范围的映射功能,但地名到地物类型(N → T)的映射保持不变。实验未明确地物类型,不过结合语言学方法,可基于预定义类型方案对条目进行半自动分类,该方案可借鉴现有地名词典。但因协作平台数据可靠性有限,此方法需质量控制机制,且难以通过自下而上的方式实现地名的全自动强类型分类。不过,将资源标签分为地名、地物类型和其他标签是可行的,且基于标签的分类方式对地名词典可能更实用。
2. 工作流程与算法
2.1 爬取方法
可靠提取地理范围需要大量带地理标签的资源,选择照片作为资源有以下原因:
- 用户分享照片希望获认可,社区网站按受欢迎程度排名,依赖照片可发现性,网站提供多种查找方式,用户会花时间标注。
- 照片有隐含位置,关联到地图点是常见标注方式,不仅有详细 Exif 元数据,创作者描述也很详细。
- 照片资源丰富,爬取能获得足够样本以取得显著结果。
爬取算法概念简单,从特定标签开始,通过 API 请求所有带该标签的地理标签资源,为每张照片的每个标签在 RDF 三元组存储中存储完整地理标签元组(L, U, C, I, T),再应用条件过滤不重要标签,结果作为聚类方法输入。
爬取流程如下:
graph LR
A[开始] --> B[选择特定标签]
B --> C[通过 API 请求带该标签的地理标签资源]
C --> D[为每个标签存储地理标签元组]
超级会员免费看
订阅专栏 解锁全文

17

被折叠的 条评论
为什么被折叠?



