基于博客的地理信息事件集中管理
1. 引言
近年来,将各种媒体数据与地图关联的服务不断涌现,但个人媒体数据管理仍存在不足。为实现以事件为中心的媒体数据处理,需要从网页中自动提取事件。当现实世界中发生事件时,经历该事件的人会在网络上创建博客文章。因此,可通过收集这些博客文章来提取事件,事件的属性可定义为类型、时间和发生地点。不过,提取事件类型较为困难,需用户在系统中按类型命名事件。
2. 整体概述
研究中,通过收集描述事件的博客文章,并利用 HTML 源中的元数据从中提取事件。博客文章内容多样,为收集与事件相关的博客文章,需对其内容进行区分。事件在博客文章中通常通过时间和地点来描述,可将事件提取视为对时间和地点的提取。提取事件发生地点时存在两个问题:一是同一地名可能对应多个地区;二是博客文章中的地名可能与事件无关。针对这些问题,通过基于地名的地理包含关系进行地名注册,以及收集更多相同事件的博客文章来缩小地名范围,以确定事件发生地点。具体流程如下:
graph LR
A[博客收集] --> B[博客内容区分]
B --> C[日期提取]
C --> D[地名提取]
D --> E[地名筛选]
E --> F[事件提取]
3. 方法
3.1 博客收集
使用 Google 收集博客文章,以给定的事件类型名称和“blog”作为搜索词。例如,收集关于棒球比赛的博客文章时,事件类型名称为“baseball+game”。收集到博客文章后,提取其正文内容,若