调优
文章平均质量分 87
RunningShare
微信公众号为:跑享网,博主有近多年工作经验,近8年大数据开发、运维和架构设计经验,将与您探讨Flink/Spark、StarRocks/Doris、Clickhouse、Hadoop、Kudu、Hive、Impala等大数据组件的架构设计原理,以及大数据、Java/Scala的面试题以及数据治理、大数据平台从0到1的实战经验等,也会与大家分享一些有正能量的名人故事,也包括个人成长、职业规划等的一些感悟,有探讨或感兴趣的话题,欢迎留言或私聊哈,如果文章对您有所启发,麻烦帮忙点赞+收藏+转发哈,若有大佬的打赏,更是感激不尽,小编将继续努力,打造更好的作品,与您一起进步~~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
猛踩Hive动态分区的坑?这份调优秘籍让你和大数据面试官聊到嗨!
Hive动态分区调优指南:避坑与优化 本文深入剖析了Hive动态分区使用中的两大核心风险:分区爆炸和小文件问题。针对分区爆炸,提出了参数调优四件套(max.dynamic.partitions等)和分区键设计原则;针对小文件问题,给出了引擎选择、文件合并和存储格式优化等解决方案。文章还提供了完整的最佳实践示例,强调预防为主、治理为辅的管理思路。这些经验不仅能解决实际工作中的难题,更能帮助开发者在技术面试中展现专业能力。原创 2025-09-23 00:04:13 · 848 阅读 · 0 评论 -
根治数据倾斜!Spark调优终极指南,让慢作业提速10倍
摘要: 数据倾斜是Spark作业常见问题,表现为部分Task运行缓慢或OOM错误。本文提出五大根治方案:1)双重聚合(加盐解盐),适用于聚合类操作;2)过滤异常热点数据;3)提高Shuffle并行度;4)使用Broadcast Join替代Shuffle Join;5)随机前缀Rebalance。此外,还介绍了高级调优参数配置,如启用自适应查询执行(AQE)和优化Shuffle相关参数。通过合理运用这些方法,可显著提升Spark作业性能,解决数据倾斜问题。原创 2025-09-19 23:54:43 · 525 阅读 · 0 评论 -
精准调优!Flink内存模型详解与RocksDB调优指南
Flink内存调优与RocksDB配置指南详解 本文系统介绍了Flink内存模型及RocksDB调优方法。主要内容包括: Flink内存组成结构解析,重点说明RocksDB使用的托管内存区域 RocksDB内存配置建议,包括预设选项选择和关键参数调优 Checkpoint配置范围建议,涵盖间隔、超时等核心参数 关键监控指标体系,包括内存、RocksDB、Checkpoint和系统资源指标 调优实践建议和问题诊断流程,提供内存配置步骤和告警阈值参考 文章最后还推荐了相关技术文章资源,帮助读者深入理解Flink原创 2025-09-19 07:00:00 · 358 阅读 · 0 评论 -
性能翻倍!Flink双流JOIN核心优化技巧揭秘,告别状态膨胀
本文揭秘Flink双流JOIN性能优化的核心技巧。关键在于正确选择"构建端"(BuildSide),应优先选择事件时间更早、数据量更小的流。通过TableHints手动指定构建端:BROADCAST适用于小维表关联,SHUFFLE_HASH适合大表关联但构建端相对较小的情况。口诀"表小广播,表大分区;谁小谁先,谁早谁建"帮助快速决策。正确配置可显著提升性能,避免状态膨胀问题。原创 2025-09-18 07:45:00 · 1214 阅读 · 0 评论 -
Flink作业慢如蜗牛?99%是数据倾斜的锅!JOIN倾斜怎么办?一文讲透所有解决方案!
Flink作业性能杀手——数据倾斜问题深度解析与解决方案 摘要:数据倾斜是Flink作业常见性能瓶颈,表现为部分节点负载过高、Checkpoint超时等问题。本文系统剖析了聚合类(Group By/Reduce)和JOIN类操作的数据倾斜成因,并提出针对性解决方案。针对聚合类倾斜,推荐两阶段聚合和重分区策略;对于JOIN类倾斜,提出热点Key分离+广播JOIN的创新解法。每种方案均附代码示例和优缺点分析,帮助开发者根据实际场景选择最优解,有效提升作业执行效率。(149字)原创 2025-09-17 07:45:00 · 1101 阅读 · 0 评论 -
性能提升300%!Spark这几个算子用对就行,90%的人都搞错了!
本文不仅深度剖析groupByKey、reduceByKey、aggregateByKey,更补充了高手才知道的combineByKey和mapGroups,带你彻底告别性能焦虑,让代码飞起来!原创 2025-09-13 07:45:00 · 609 阅读 · 0 评论 -
云原生大数据避坑实录:Flink on Docker从ODS到DWD层清洗OOM崩溃?一套内存配置组合拳教你彻底稳住!
解决Flink on Docker在ODS到DWD层处理中的OOM问题,是一个从资源评估到代码优化的系统工程。精准评估:深刻理解托管内存和网络内存的配置规则(fraction vs. size/min/max),遵循代码负载 → TM内存模型 → 容器限制 → 宿主机规划的自底向上评估链,做到科学规划。洞悉底层:理解Docker的内存限制与Flink内存模型的映射关系,做到精准分配,严防OOM Killer。精雕代码:从数据结构和算法层面优化,避免数据倾斜,高效利用缓存。善用机制。原创 2025-09-02 09:02:03 · 1009 阅读 · 0 评论 -
Yarn中内存和cpu参数配置调优的理解
Container是什么?Container就是一个yarn的java进程,在Mapreduce中的AM,MapTask,ReduceTask都作为Container在Yarn的框架上执行,你可以在RM的网页上【8088端口】看到Container的状态基础Yarn的ResourceManger(简称RM)通过逻辑上的队列分配内存,CPU等资源给application,默认情况下...转载 2019-09-04 10:40:00 · 2811 阅读 · 2 评论
分享