数据处理与需求收集:为有效分析奠定基础
1. 数据聚合的必要性
随着数据集规模的不断增大,数据聚合变得越来越必要。分析工具需要处理数十亿行的数据,如果不进行聚合,性能会受到严重影响。将数据聚合到更高级别的粒度,意味着工具需要处理的行数减少,从而能够更快地进行计算。同时,检查的行数减少也使得数据验证更加容易。不过,只有在回答问题不需要更细粒度的数据时,才应该进行数据聚合。
2. 数据清洗
2.1 数据拆分
并非所有数据源都需要创建结构良好的数据集,因此需要尽早确定是否需要进行额外的拆分工作,并将其纳入分析时间规划。例如,表 2 - 15 中的安全徽章登录日志数据可以按连字符进行拆分:
| Log |
| — |
| 2022_10_13 - 08:31:47 - 30957191 |
| 2022_10_13 - 08:42:21 - 89620539 |
| 2022_10_13 - 08:47:19 - 52814935 |
| 2022_10_13 - 08:49:56 - 51123824 |
拆分后得到表 2 - 16:
| Date | Time | Student ID |
| — | — | — |
| 2022_10_13 | 08:31:47 | 30957191 |
| 2022_10_13 | 08:42:21 | 89620539 |
| 2022_10_13 | 08:47:19 | 52814935 |
| 2022_10_13 | 08:49:56 | 51123824 |
超级会员免费看
订阅专栏 解锁全文
1383

被折叠的 条评论
为什么被折叠?



