调优
文章平均质量分 90
supper_M
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive性能优化实战
摘要:本文系统介绍了Hive查询优化的关键技术,包括:1)存储优化,推荐使用列式格式(Parquet/ORC)并合理分区;2)SQL优化,重点解决JOIN性能、数据倾斜和聚合操作;3)参数调优,涉及MapReduce任务分配和Hive特有参数;4)数据倾斜处理方案;5)元数据管理和小文件合并策略。通过格式选择、查询重构、资源配置和表结构设计等多维度优化,可显著提升Hive查询效率,特别适用于大数据分析场景。原创 2025-11-05 13:53:22 · 1030 阅读 · 0 评论 -
Hive分桶表失效场景与解决方案
分桶表是 Hive 中优化大数据查询的重要手段,其核心价值在于通过哈希实现数据的均匀、细粒度拆分。使用时需严格遵循 “定义明确、插入正确、维护规范” 的原则,结合数据量、查询模式和分桶列特性判断适用性。只有在数据量大、高频按高基数列操作、需要高效采样或 Join 的场景下,分桶表才能发挥最大价值,避免为分桶而分桶导致的资源浪费。原创 2025-10-23 09:31:54 · 2050 阅读 · 0 评论 -
Spark性能优化
Spark性能优化指南:从资源配置到代码执行的关键策略。通过合理配置Executor、Driver和动态资源调整,平衡资源利用率;规避低效算子如collect(),采用高效替代方案;优化数据处理流程,选择列式存储格式(Parquet/ORC),实施过滤下推;调整Shuffle并行度与压缩策略,减少网络与磁盘开销;内存管理则通过调整执行/存储比例,适配不同计算场景。最终实现计算密集型任务的高效执行与缓存密集型作业的资源最大化利用。原创 2025-10-19 15:49:54 · 815 阅读 · 0 评论
分享