spark 工作干货
文章平均质量分 89
数据慢想
you can you up,no can no bb
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从90分钟到3分钟:Spark SQL多维分析性能优化实战记录
通过这次 Spark SQL 多维分析优化实践,我们成功将原本需要 1.5-2 小时的 Hive 报表任务优化到了 3.2 分钟,性能提升了近 30 倍!核心优化策略回顾数据预处理优化:对底表进行去重操作,大幅减少后续计算的数据量(我个人认为这一步是最重要的)聚合函数替换:将替换为,避免了大量count distinct触发的底层expandcube重构:通过程序化生成 CUBE 维度组合,将复杂的多维分析转换为高效的 UNION ALL 查询。原创 2025-07-04 21:28:44 · 946 阅读 · 0 评论 -
Spark AQE优化篇①:小文件治理
spark 工作实战总结,纯纯干货原创 2025-06-30 14:21:13 · 1082 阅读 · 0 评论
分享