13、基于地理标签隐式语义构建自下而上的地名词典

PEPSI

于 2025-10-01 14:18:32 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：地理空间语义探秘文章标签：地理标签地名词典隐式语义

本文链接：https://blog.youkuaiyun.com/pepsi/article/details/153242548

地理空间语义探秘专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于地理标签隐式语义构建自下而上的地名词典

1. 地名词典映射与分类

从地理标签推导地名词典条目，虽能增强地名到地理范围的映射功能，但地名到地物类型（N → T）的映射保持不变。实验未明确地物类型，不过结合语言学方法，可基于预定义类型方案对条目进行半自动分类，该方案可借鉴现有地名词典。但因协作平台数据可靠性有限，此方法需质量控制机制，且难以通过自下而上的方式实现地名的全自动强类型分类。不过，将资源标签分为地名、地物类型和其他标签是可行的，且基于标签的分类方式对地名词典可能更实用。

2. 工作流程与算法

2.1 爬取方法

可靠提取地理范围需要大量带地理标签的资源，选择照片作为资源有以下原因：
- 用户分享照片希望获认可，社区网站按受欢迎程度排名，依赖照片可发现性，网站提供多种查找方式，用户会花时间标注。
- 照片有隐含位置，关联到地图点是常见标注方式，不仅有详细 Exif 元数据，创作者描述也很详细。
- 照片资源丰富，爬取能获得足够样本以取得显著结果。

爬取算法概念简单，从特定标签开始，通过 API 请求所有带该标签的地理标签资源，为每张照片的每个标签在 RDF 三元组存储中存储完整地理标签元组（L, U, C, I, T），再应用条件过滤不重要标签，结果作为聚类方法输入。

爬取流程如下：

graph LR
    A[开始] --> B[选择特定标签]
    B --> C[通过 API 请求带该标签的地理标签资源]
    C --> D[为每个标签存储地理标签元组]

会员秒杀 ¥9.9 重磅福利

超级会员免费看