互联网数据分析系统与数据流聚合计算
1. Socio - Sense系统介绍
1.1 系统概述
Socio - Sense系统将网络视为现实世界的投影,基于海量网络信息分析社会行为。该系统的发展方向包括:
- 拥有9年以日语为中心的网络内容的网络存档,可进行长期历史分析。
- 基于图挖掘算法和自然语言处理技术的网络结构分析方法,能对相关网页进行分组,识别产品声誉等微观信息。
- 网络时间分析方法,用于捕捉网络空间中主题的出现、发展、衰退、消失以及主题间的分裂和合并等事件。
系统的基础是网络存档,它由存储设备中积累的以日语为中心的网络内容及其衍生数据组成,目前存档内容跨度达9年。网络存档从批量模式爬虫获取的年度快照集合发展为通用时间数据库,相关爬虫现在以连续模式运行,能自适应估计网页更新间隔,使版本间的最小时间分辨率降至一天。网络存档的URL - 时间索引支持跟踪URL历史和任意时间的全URL交叉查询,可通过全文查询统一搜索不同时期的内容,轻松获取特定单词的出现频率历史。
为避免大量数据移动的开销,系统将网络存档与分析集群紧密耦合,采用并行扫描机制,将内容从网络存档中提取并实时分发到集群节点进行处理,同时系统会处理集群节点间的负载均衡。由于分析结果复杂,系统构建了5k x 3k像素的显示墙来可视化结果。
1.2 网络结构分析
1.2.1 网页社区提取
主题相关的网页在网络图中通常通过大量超链接连接且拓扑位置相近。利用这一特性,通过从整个网络空间中提取密集子图得到相关网页集合,即网页社区。这些社区在不同领域都很常见,如同一行业公司的主页、提及相同爱好的个人页面等。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



