- 博客(3)
- 资源 (6)
- 收藏
- 关注
原创 一夜堆积 4 万条任务,ClickHouse 和我都快顶不住了
本次故障处理从任务异常排查、日志分析、分布式队列定位、代码复现到根因定位与修复,完成了一个完整的闭环。借助 ClickHouse 的系统表和日志,我们快速锁定问题根源,发现错误使用 parallelize 执行 DDL 导致分布式队列异常。这次问题提醒我们,使用 ClickHouse 分布式 DDL 需谨慎,合理配置 ON CLUSTER 并管理队列生命周期,避免任务堆积。ClickHouse 系统表的可观测性极大提升了排障效率。正如健身界的名言:“没有坏的动作,只有错误的姿势。
2025-07-16 09:34:44
734
原创 从90分钟到3分钟:Spark SQL多维分析性能优化实战记录
通过这次 Spark SQL 多维分析优化实践,我们成功将原本需要 1.5-2 小时的 Hive 报表任务优化到了 3.2 分钟,性能提升了近 30 倍!核心优化策略回顾数据预处理优化:对底表进行去重操作,大幅减少后续计算的数据量(我个人认为这一步是最重要的)聚合函数替换:将替换为,避免了大量count distinct触发的底层expandcube重构:通过程序化生成 CUBE 维度组合,将复杂的多维分析转换为高效的 UNION ALL 查询。
2025-07-04 21:28:44
846
Lucky Draw
2013-08-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人