- 博客(7)
- 资源 (4)
- 收藏
- 关注
原创 面试官陷阱:如何在Spark中正确提取Json数据?
这是你日常的一次普通浏览,平平淡淡,看了一遍又一遍,一点也不好看。于是前端就上报至少50条埋点数据,别笑,这是真的。你今晚刷了60个短视频,累计上报3000条数据。作为日活破亿的APP,日增埋点数据量= 3000 x 1亿 = 3000亿,也就是每日增量TB级别的数据增长!
2025-01-15 23:18:05
646
1
原创 从业务到数仓-网约车平台Grab数据建模
从毕业到现在,对模型的认识不断被刷新重建,尤其是后来接触越来越复杂的业务,设计的模型被一次次鞭笞和灵魂拷问(下游吐槽),才积累出心得。5年后,我又转去做数据治理,开始轮到我吐槽别人的模型:SLA被一个指标严重拖垮;这个指标命名相同,但含义却不一致;每日历史全量表占据太多存储空间,修改TTL又影响Backfill重新写脚本;订单指标重复开发,下游不知道用哪个,每次都来问;Backfill的时候,部分表出现数据短板。精辟1. 高内聚、低耦合2. 核心和拓展模型分离。
2025-01-15 23:11:34
2093
原创 SQL千亿数据膨胀OOM优化经验
整体优化也花了一天的时间,主要这个任务太大,改动一些参数要看效果,也得等到5小时以后,解决问题的过程和思路还是值得复制在其他地方,借此以飨读者。如果它对您有一些价值,可以关注一下,原创不易,需要支持。参考阅读。
2025-01-12 16:24:05
1523
原创 Spark性能调优:Spill内存溢出
在Spark中,如果数据集太大,超出了处理数据的机器的内存,那么Spark就会把这部分数据先存到硬盘里,等内存有空了再从硬盘读回来。这个过程叫做溢出。这样做会很慢,因为硬盘读写速度远不如内存。掌握Spark性能调优,尤其是Spill溢出处理,对于优化大数据处理至关重要。通过解决数据倾斜、增加内存、合理设置Shuffle分区和文件分区大小,你可以显著提升Spark作业的效率,让你的Spark应用飞起来!
2025-01-10 21:05:24
875
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人