自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

熊大数据

硬核原创大厂数据开发和优化经验,都是经历洪峰数据考验的解决方案,拒绝纸上谈兵。

  • 博客(7)
  • 资源 (4)
  • 收藏
  • 关注

原创 人人都可以转型数仓?数仓“护城河”在哪里

数仓“护城河”在哪里

2025-01-09 15:45:33 815

原创 面试官陷阱:如何在Spark中正确提取Json数据?

这是你日常的一次普通浏览,平平淡淡,看了一遍又一遍,一点也不好看。于是前端就上报至少50条埋点数据,别笑,这是真的。你今晚刷了60个短视频,累计上报3000条数据。作为日活破亿的APP,日增埋点数据量= 3000 x 1亿 = 3000亿,也就是每日增量TB级别的数据增长!

2025-01-15 23:18:05 646 1

原创 从业务到数仓-网约车平台Grab数据建模

从毕业到现在,对模型的认识不断被刷新重建,尤其是后来接触越来越复杂的业务,设计的模型被一次次鞭笞和灵魂拷问(下游吐槽),才积累出心得。5年后,我又转去做数据治理,开始轮到我吐槽别人的模型:SLA被一个指标严重拖垮;这个指标命名相同,但含义却不一致;每日历史全量表占据太多存储空间,修改TTL又影响Backfill重新写脚本;订单指标重复开发,下游不知道用哪个,每次都来问;Backfill的时候,部分表出现数据短板。精辟1. 高内聚、低耦合2. 核心和拓展模型分离。

2025-01-15 23:11:34 2093

原创 让数据工程师势不可挡的 7 个习惯

让数据工程师势不可挡的 7 个习惯

2025-01-12 16:28:37 1477

原创 SQL千亿数据膨胀OOM优化经验

整体优化也花了一天的时间,主要这个任务太大,改动一些参数要看效果,也得等到5小时以后,解决问题的过程和思路还是值得复制在其他地方,借此以飨读者。如果它对您有一些价值,可以关注一下,原创不易,需要支持。参考阅读。

2025-01-12 16:24:05 1523

原创 Spark性能调优:Spill内存溢出

在Spark中,如果数据集太大,超出了处理数据的机器的内存,那么Spark就会把这部分数据先存到硬盘里,等内存有空了再从硬盘读回来。这个过程叫做溢出。这样做会很慢,因为硬盘读写速度远不如内存。掌握Spark性能调优,尤其是Spill溢出处理,对于优化大数据处理至关重要。通过解决数据倾斜、增加内存、合理设置Shuffle分区和文件分区大小,你可以显著提升Spark作业的效率,让你的Spark应用飞起来!

2025-01-10 21:05:24 875

原创 直播电商:不一样的数据倾斜SQL优化

非NULL、热点key带来的数据倾斜,一线生产案例,还原最真实的场景。

2025-01-10 12:21:01 440

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除