38、地名数据的规则发现与概率建模

地名数据的规则发现与概率建模

在地名研究领域,探索地名出现之间的依赖关系以及是否存在地名同质区域是两个重要的主题。本文将通过对芬兰湖泊地名数据的分析,介绍如何运用空间关联规则和概率建模来研究这些问题。

1. 数据集

我们使用的数据集来自芬兰国家地名登记册中的湖泊地名。该登记册包含了出现在1:20000基本地图上的所有地名,并为制作这些地图而维护。以下是数据集的相关信息:
| 类别 | 名称实例数 | 不同名称数 | 不同市镇数 |
| — | — | — | — |
| 整个登记册 | 717747 | 303626 | 447 |
| 湖泊 | 58267 | 25178 | 408 |
| 常见湖泊名称 | 9008 | 54 | 315 |
| 名称结尾 | 55538 | 45 | 407 |

为了进行研究,我们首先选择了所有芬兰语的湖泊名称,并进一步进行了两次筛选:
- 主要数据集 :选择出现次数至少为90次的名称,目的是关注最常见的名称。
- 补充数据集 :为聚类目的选择的第二个数据集,由派生词缀和复合名称的最后部分组成。

选择这两个不同子集主要是出于地名学的原因。我们的工作假设是,空间关联在很大程度上与对比名称现象有关,即指相似地理特征且仅在名称的第一部分存在对比的名称对。为了研究这一点,我们需要搜索完整名称的空间关联。同样,直觉和地名学共识都认为,同一名称的不同实例之间存在排斥效应,这与使用地名来识别地点密切相关。因此,我们需要研究完整名称。在这两种情况下,限制使用相对常见的名称似乎是合适的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值