地理信息系统自动标签扩展与应用开发技术
自动标签扩展方法
在地理信息系统中,兴趣点(POI)的标签扩展是一项重要任务。通过对主要店铺标签的 k - 元组分析,发现程序提取的 k - 元组与手动选择的相近。例如,对于超市,k - 元组几乎都是超市连锁店的名称,加油站连锁店也有类似结果。而且,几乎所有类别中都能找到在各自类别名称中出现超过 10% 的 k - 元组,这表明很多名称包含分类信息,可用于标签扩展。
在旅游和休闲标签方面,识别出 168 种不同的旅游标签,其中 16 种出现超过 200 次,“information”“hotel”“attraction”的出现次数最多。休闲标签有 153 种,高频的有 9 种。由于“artwork”难以有一致的指示词,“attraction”类别过于多样且提取的 k - 元组太笼统,将它们排除后,把剩余 23 个类别输入分类器。最初的交叉验证发现“information”和“hotel”混淆严重,为此先创建酒店分类器来修剪“information”数据,整体准确率从 62% 提高到 73%。
对于实际数据,新增了 3452 个带有旅游或休闲标签的 POI。在计算精度时,因“information”标签的实体常是徒步小径旁的标志,且多数类别未被分配标签,所以仅对“hotel”“playground”“marina”和“sports centre”进行精度计算,检查每个类别 50 个示例,整体准确率达 92%,“sports centre”甚至达到 98%。
| 标签类别 | 出现次数 |
| — | — |
| information | 45,879 |
| hotel | 12,228 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



