大数据分析相关技术与应用
1 大数据分析流程
大数据分析在处理大规模事件相关数据时,有着一套系统的流程,主要包括数据收集、预处理、数据集创建、数据挖掘和结果可视化等步骤。
1.1 数据收集与预处理
利用社交媒体平台的公开 API 收集数据,以构建 G 数据集。收集后的数据需要进行预处理,具体步骤如下:
1. 数据清理 :移除位置不可靠的项目,例如用户或应用手动设置坐标的项目。
2. 数据选择 :仅选择实际参加活动的用户发布的地理标记项目,移除其他用户的回复和收藏。
3. 数据转换 :为每个用户的每个活动保留一个项目,因为我们只关心用户是否参加了活动。
4. 用户识别 :提取在 G 数据集中发布至少一个地理标记项目的不同用户集合 U。
1.2 数据集创建
创建输入数据集 D = {d1, d2, …},其中 di 是一个元组 ,eij 是用户 ui 参加的第 j 个活动,optFields 是可选的描述字段(如国籍、兴趣)。
1.3 数据挖掘
对构建好的输入数据集 D 进行分析,以发现参加大规模活动的用户的行为和移动模式。具体进行关联分析和序列分析:
- 关联分析 :旨在发现数据中高频共同出现的项目值。应用于数据集 D 时,执行两个关联移动挖掘任务:
- 频繁事件集发现:提取在整个观察的大规模活动期间,游客最常一起参加(访问)的活动(地点)集合。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



