网页文档地理知识提取模型解析
1. GeoSEn 系统概述
GeoSEn 原型系统包含 Geosen Query Filter 和 Geosen URL Filter 两个插件。Geosen Query Filter 可在查询索引时考虑 Geosen Indexing Filter 添加的地理范围信息;Geosen URL Filter 能在爬取过程中检测 URL 中的地理引用和空间关系。这两个插件是连接到 GeoSEn 核心的桥梁,核心功能可通过 API 调用,核心还包含地理范围、相关性排名等辅助功能。此外,还有用于存储地理数据的数据库服务器(Geo DataBase)和为系统提供额外地理数据的 Web Services。
2. 地理引用检测机制
地理引用检测是爬取过程的一部分,旨在从网页爬虫检索的文档中识别和提取地理信息,如地名、邮政编码和电话号码等。获取这些信息后,将其转换为系统能识别的地理位置,地理引用可在文档的正文、标题和 URL 中检测到。
检测到的引用会经过消歧处理,然后用于建模文档的地理范围,以确定与文档关联的地点及其相关的相关性值,这些值将用于搜索过程。
3. 地理术语置信度
为检测到的地理术语分配置信率(Confidence Rate,CR),它表示该引用是有效地点的概率,是消歧的主要因素,取值范围在 0 到 1 之间,阈值为 0.5,低于该值的引用将被忽略。
地理引用检测过程会分析候选引用的多个特征来确定 CR 值,CR 值由置信因子(Confidence Factor,CF)计算得出。GeoSEn 使用的 CF 包括:
- CFST:分析与地理引用相关的特殊术
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



