数据慢想-优快云博客

原创 Spark 数仓分区归档优化：从 15 天到高效并发实践

本文提出了一种优化SparkSQL每小时分区归档任务的方案。针对原15天串行执行的低效问题，设计了"表间串行、表内天级并行、天内小时串行"的三级执行架构，通过动态并发控制、SparkUI可观测性增强、空分区跳过等关键技术，实现了任务的高效稳定执行。方案采用数据量估算决定并发度，设置JobGroup提升监控性，并优化资源配置。最终将笨重的长跑任务改造为可并发、可监控、可降级的稳健工程，显著提升了执行效率。文中提供了完整的技术实现细节和性能评估方法，具有较强的工程实践价值。

2025-10-17 17:57:10 778

原创晚上10点之后，是程序员唯一的出路

《程序员如何利用深夜时间实现自我成长》摘要：一位大厂数据负责人分享，程序员晚上10点后的时间才是真正属于自己的"黄金时间"。文章指出，被动消费型爱好会让人产生虚无感，而输出型爱好（写作、开源项目、技术博客等）能带来指数级能力增长、价值变现可能和心理满足。深夜时间具有专注度高、创作状态佳和自主感强的优势。建议程序员将输入转化为输出，建立反馈机制并实现产品化。真正的副业应是打造数字资产而非体力劳动。每天投资一小时进行创造性工作，三年后可能成为领域专家。

2025-09-12 09:22:23 873

原创一夜堆积 4 万条任务，ClickHouse 和我都快顶不住了

本次故障处理从任务异常排查、日志分析、分布式队列定位、代码复现到根因定位与修复，完成了一个完整的闭环。借助 ClickHouse 的系统表和日志，我们快速锁定问题根源，发现错误使用 parallelize 执行 DDL 导致分布式队列异常。这次问题提醒我们，使用 ClickHouse 分布式 DDL 需谨慎，合理配置 ON CLUSTER 并管理队列生命周期，避免任务堆积。ClickHouse 系统表的可观测性极大提升了排障效率。正如健身界的名言：“没有坏的动作，只有错误的姿势。

2025-07-16 09:34:44 846

原创从90分钟到3分钟：Spark SQL多维分析性能优化实战记录

通过这次 Spark SQL 多维分析优化实践，我们成功将原本需要 1.5-2 小时的 Hive 报表任务优化到了 3.2 分钟，性能提升了近 30 倍！核心优化策略回顾数据预处理优化：对底表进行去重操作，大幅减少后续计算的数据量(我个人认为这一步是最重要的)聚合函数替换：将替换为，避免了大量count distinct触发的底层expandcube重构：通过程序化生成 CUBE 维度组合，将复杂的多维分析转换为高效的 UNION ALL 查询。

2025-07-04 21:28:44 940