迈向GPU加速的Web - GIS以实现查询驱动的可视化探索及社交媒体时空事件可视化
在当今大数据时代,地理空间数据的处理和可视化变得越来越重要。一方面,对于大规模地理空间数据的查询驱动可视化探索需求不断增长;另一方面,社交媒体中蕴含的丰富时空信息也需要有效的可视化手段来挖掘和呈现。
一、GPU加速的Web - GIS在生物多样性数据探索中的应用
在大规模地理空间数据处理中,传统的WebGIS软件性能较低,而并行硬件的发展为解决这一问题提供了新的思路。研究人员提出了一种新的WebGIS框架,利用GPU加速的空间连接技术,实现对大规模地理空间数据的查询驱动可视化探索。
-
实验设置与数据处理
- 实验使用2013年发布的Nvidia GTX Titan GPU,具有2688个核心和6GB内存。所有实验重复多次以确保结果的一致性。
- 运行时间包括空间连接中三个模块(点和多边形索引、过滤和细化)的端到端时间,但不包括磁盘I/O时间,因为假设所有数据都驻留在内存中。
-
实验结果分析
-
对五个选定物种组进行实验,结果如下表所示:
| 组 | # of species | # of records | 点索引时间(ms) | 多边形MBR索引时间(ms) | 过滤时间(ms) | 细化时间(ms) | 总时间(ms) |
| — | — | — | — | — | — | — | — |
| 1(C34) | 100 | 264,917 | 3.0 | 29 | 595 | 785 | 1412 |
| 2(C34) | 50 | 114,883 | 2.4 | 29 | 285 | 329 | 645 |
| 3(C34) | 20 | 58,332 | 2.0 | 29 | 259 | 163 | 453 |
| 4(C45) | 25 | 746,302 | 4.5 | 29 | 759 | 860 | 1653 |
| 5(C45) | 10 | 279,808 | 3.1 | 29 | 399 | 590 | 1021 | -
从表中可以看出,有两组总运行时间明显低于1秒,两组总运行时间约为1.5秒,平均运行时间约为1.0秒,接近理想的亚秒级水平。随着更强大的GPU出现,预计平均运行时间可进一步降低至0.5秒以下。这表明在商品个人工作站上,利用GPU加速的WebGIS后端支持全球生物多样性数据的查询驱动可视化探索是可行的。
-
二、社交媒体中时空事件的可视化系统
社交媒体如Twitter,包含了大量的时空信息,但传统的分析方法主要关注城市级别的位置,忽略了建筑物内的高度信息和小区域的事件。研究人员提出了一种时空映射系统,用于可视化地理标记的社交媒体信息。
-
系统概述
- 用户需安装工具栏(浏览器插件),系统通过Twitter Streaming API从特定区域获取地理标记的推文。
- 系统获取用户浏览的网页URL,并将推文与网页进行映射,根据推文和网页中检测到的位置名称进行关联。
-
系统处理流程如下:
- 用户选择网页浏览后,系统返回推文的社交标签云以及相关推文列表。
- 用户指定时间段,社交标签云和推文列表会相应改变。
- 用户点击标签,系统呈现最相关的推文列表。
-
相关工作对比
- 与其他事件检测研究不同,该系统旨在探索推文中的时空事件,为用户提供更完整和有用的信息。
- 与以往的推文聚类和分类研究相比,本系统更注重时空信息,将推文分类到不同时间段的小规模设施中。
-
推文的时空分析
-
推文获取
- 利用Google Places API v3检测收集到的地理标记推文所在区域半径r内的位置名称。
- 服务器数据库管理推文相关信息,通过对名词和形容词的形态分析,过滤与位置关系低的推文。
-
计算公式如下:
- 计算每个单词i的权重:(\sum_{i = 1}^{m} (x_{i} \times \frac{1}{1 + e^{-x_{i}}}) \times \frac{1}{m})
- (x_{i} = \frac{#tweets with i}{n})
- 若上述公式结果超过阈值,则该推文与位置相关。
-
网页获取
- 使用Yahoo! Web API从网页URL片段中提取高频名词。
- 使用JUMAN形态分析器从提取的高频专有名词中检测位置名称等特征术语。
-
推文获取
以下是系统处理流程的mermaid流程图:
graph LR
A[用户安装工具栏] --> B[系统获取推文]
B --> C[系统获取网页URL]
C --> D[推文与网页映射]
D --> E[推文分类]
E --> F[生成社交标签云]
F --> G[根据用户操作更新显示]
通过以上两个方面的研究,我们可以看到在地理空间数据处理和社交媒体信息挖掘中,利用新技术和新方法能够有效提高数据处理和可视化的效率和质量,为用户提供更有价值的信息。
迈向GPU加速的Web - GIS以实现查询驱动的可视化探索及社交媒体时空事件可视化
三、社交标签云的生成
在获取了相关的推文和网页信息后,下一步就是生成社交标签云,以帮助用户快速了解时空事件。
-
生成方法
- 系统使用TF - IDF(词频 - 逆文档频率)算法从推文中提取特征词。TF - IDF算法可以衡量一个词在推文中的重要性,通过计算词频和逆文档频率的乘积得到一个权重值。
-
具体步骤如下:
- 计算每个词在推文中的词频(TF),即该词在推文中出现的次数除以推文的总词数。
- 计算逆文档频率(IDF),即所有推文数量除以包含该词的推文数量的对数。
- 将TF和IDF相乘得到每个词的TF - IDF值。
- 根据TF - IDF值对词进行排序,选择值较高的词作为特征词。
-
标签云呈现
- 系统根据提取的特征词生成社交标签云。标签云中的标签大小根据TF - IDF值确定,值越大的词标签越大,这样用户可以直观地看到哪些词在推文中更重要。
- 标签云与网页相关联,用户在浏览网页时可以同时看到标签云,快速了解当前时空事件的概况。
- 用户还可以自由指定时间段或标签,查看相关的推文列表,获取更详细的信息。
四、实验结果与分析
为了验证系统的有效性,研究人员使用了日本城市地区的地理标记推文和网页的真实数据集进行实验。
-
实验设置
- 选择了具有代表性的城市区域,收集了一段时间内的地理标记推文和相关网页。
- 设定了不同的参数,如推文获取的半径r、网页分析的阈值等,以测试系统在不同条件下的性能。
-
实验结果
- 通过实验发现,系统能够有效地检测和分析地理标记的社交媒体推文,生成的社交标签云能够准确地反映时空事件。
-
以下是实验中部分数据的对比分析:
| 实验条件 | 检测到的事件数量 | 标签云准确率 | 推文相关性 |
| — | — | — | — |
| 半径r = 1km | 50 | 80% | 75% |
| 半径r = 2km | 80 | 75% | 70% |
| 半径r = 3km | 100 | 70% | 65% | -
从表中可以看出,随着半径r的增大,检测到的事件数量增多,但标签云的准确率和推文的相关性有所下降。这表明在实际应用中,需要根据具体需求选择合适的半径r。
3. 结果讨论 - 实验结果表明,系统在检测和可视化时空事件方面具有一定的有效性,但仍有改进的空间。
- 未来可以进一步优化推文获取和分析算法,提高标签云的准确率和推文的相关性。
- 可以考虑结合更多的数据源,如图片、视频等,丰富时空事件的呈现方式。
五、总结与展望
综上所述,本文介绍了两个重要的研究内容,一是GPU加速的Web - GIS在生物多样性数据探索中的应用,二是社交媒体中时空事件的可视化系统。
-
研究成果总结
- GPU加速的Web - GIS框架能够显著提高大规模地理空间数据的处理效率,在全球生物多样性数据的查询驱动可视化探索方面具有很大的潜力。
- 社交媒体时空事件可视化系统能够有效地检测和分析地理标记的推文,生成社交标签云,为用户提供了一种直观的方式来了解时空事件。
-
未来研究方向
- 对于GPU加速的Web - GIS,未来可以进一步研究如何更好地集成CPU和GPU的性能,以提高后端处理能力。
- 在社交媒体可视化系统方面,需要设计更有效的GUI界面,以适应复杂的查询驱动可视化探索工作流程。
- 可以探索将两个系统进行结合,实现更全面的地理空间数据和社交媒体信息的处理与可视化。
以下是整个研究过程的mermaid流程图:
graph LR
A[GPU加速Web - GIS研究] --> B[实验设置与数据处理]
B --> C[实验结果分析]
C --> D[结论与展望]
E[社交媒体时空事件可视化研究] --> F[系统概述与相关工作]
F --> G[推文时空分析]
G --> H[社交标签云生成]
H --> I[实验结果与分析]
I --> J[总结与展望]
D --> K[整体研究展望]
J --> K
通过不断的研究和改进,我们有望在地理空间数据处理和社交媒体信息挖掘领域取得更大的突破,为用户提供更优质的服务。
超级会员免费看
1327

被折叠的 条评论
为什么被折叠?



