12、大数据分析相关技术与应用

大数据分析相关技术与应用

1 大数据分析流程

大数据分析在处理大规模事件相关数据时,有着一套系统的流程,主要包括数据收集、预处理、数据集创建、数据挖掘和结果可视化等步骤。

1.1 数据收集与预处理

利用社交媒体平台的公开 API 收集数据,以构建 G 数据集。收集后的数据需要进行预处理,具体步骤如下:
1. 数据清理 :移除位置不可靠的项目,例如用户或应用手动设置坐标的项目。
2. 数据选择 :仅选择实际参加活动的用户发布的地理标记项目,移除其他用户的回复和收藏。
3. 数据转换 :为每个用户的每个活动保留一个项目,因为我们只关心用户是否参加了活动。
4. 用户识别 :提取在 G 数据集中发布至少一个地理标记项目的不同用户集合 U。

1.2 数据集创建

创建输入数据集 D = {d1, d2, …},其中 di 是一个元组 ,eij 是用户 ui 参加的第 j 个活动,optFields 是可选的描述字段(如国籍、兴趣)。

1.3 数据挖掘

对构建好的输入数据集 D 进行分析,以发现参加大规模活动的用户的行为和移动模式。具体进行关联分析和序列分析:
- 关联分析 :旨在发现数据中高频共同出现的项目值。应用于数据集 D 时,执行两个关联移动挖掘任务:
- 频繁事件集发现:提取在整个观察的大规模活动期间,游客最常一起参加(访问)的活动(地点)集合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值