- 博客(5)
- 资源 (6)
- 收藏
- 关注
原创 Spark 数仓分区归档优化:从 15 天到高效并发实践
本文提出了一种优化SparkSQL每小时分区归档任务的方案。针对原15天串行执行的低效问题,设计了"表间串行、表内天级并行、天内小时串行"的三级执行架构,通过动态并发控制、SparkUI可观测性增强、空分区跳过等关键技术,实现了任务的高效稳定执行。方案采用数据量估算决定并发度,设置JobGroup提升监控性,并优化资源配置。最终将笨重的长跑任务改造为可并发、可监控、可降级的稳健工程,显著提升了执行效率。文中提供了完整的技术实现细节和性能评估方法,具有较强的工程实践价值。
2025-10-17 17:57:10
763
原创 晚上10点之后,是程序员唯一的出路
《程序员如何利用深夜时间实现自我成长》摘要:一位大厂数据负责人分享,程序员晚上10点后的时间才是真正属于自己的"黄金时间"。文章指出,被动消费型爱好会让人产生虚无感,而输出型爱好(写作、开源项目、技术博客等)能带来指数级能力增长、价值变现可能和心理满足。深夜时间具有专注度高、创作状态佳和自主感强的优势。建议程序员将输入转化为输出,建立反馈机制并实现产品化。真正的副业应是打造数字资产而非体力劳动。每天投资一小时进行创造性工作,三年后可能成为领域专家。
2025-09-12 09:22:23
867
原创 一夜堆积 4 万条任务,ClickHouse 和我都快顶不住了
本次故障处理从任务异常排查、日志分析、分布式队列定位、代码复现到根因定位与修复,完成了一个完整的闭环。借助 ClickHouse 的系统表和日志,我们快速锁定问题根源,发现错误使用 parallelize 执行 DDL 导致分布式队列异常。这次问题提醒我们,使用 ClickHouse 分布式 DDL 需谨慎,合理配置 ON CLUSTER 并管理队列生命周期,避免任务堆积。ClickHouse 系统表的可观测性极大提升了排障效率。正如健身界的名言:“没有坏的动作,只有错误的姿势。
2025-07-16 09:34:44
829
原创 从90分钟到3分钟:Spark SQL多维分析性能优化实战记录
通过这次 Spark SQL 多维分析优化实践,我们成功将原本需要 1.5-2 小时的 Hive 报表任务优化到了 3.2 分钟,性能提升了近 30 倍!核心优化策略回顾数据预处理优化:对底表进行去重操作,大幅减少后续计算的数据量(我个人认为这一步是最重要的)聚合函数替换:将替换为,避免了大量count distinct触发的底层expandcube重构:通过程序化生成 CUBE 维度组合,将复杂的多维分析转换为高效的 UNION ALL 查询。
2025-07-04 21:28:44
928
Lucky Draw
2013-08-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅