40、网页文档地理知识提取模型解析

网页文档地理知识提取模型解析

1. GeoSEn 系统概述

GeoSEn 原型系统包含 Geosen Query Filter 和 Geosen URL Filter 两个插件。Geosen Query Filter 可在查询索引时考虑 Geosen Indexing Filter 添加的地理范围信息;Geosen URL Filter 能在爬取过程中检测 URL 中的地理引用和空间关系。这两个插件是连接到 GeoSEn 核心的桥梁,核心功能可通过 API 调用,核心还包含地理范围、相关性排名等辅助功能。此外,还有用于存储地理数据的数据库服务器(Geo DataBase)和为系统提供额外地理数据的 Web Services。

2. 地理引用检测机制

地理引用检测是爬取过程的一部分,旨在从网页爬虫检索的文档中识别和提取地理信息,如地名、邮政编码和电话号码等。获取这些信息后,将其转换为系统能识别的地理位置,地理引用可在文档的正文、标题和 URL 中检测到。

检测到的引用会经过消歧处理,然后用于建模文档的地理范围,以确定与文档关联的地点及其相关的相关性值,这些值将用于搜索过程。

3. 地理术语置信度

为检测到的地理术语分配置信率(Confidence Rate,CR),它表示该引用是有效地点的概率,是消歧的主要因素,取值范围在 0 到 1 之间,阈值为 0.5,低于该值的引用将被忽略。

地理引用检测过程会分析候选引用的多个特征来确定 CR 值,CR 值由置信因子(Confidence Factor,CF)计算得出。GeoSEn 使用的 CF 包括:
- CFST:分析与地理引用相关的特殊术

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值