大熊啊啊啊-优快云博客

原创面试官陷阱：如何在Spark中正确提取Json数据？

这是你日常的一次普通浏览，平平淡淡，看了一遍又一遍，一点也不好看。于是前端就上报至少50条埋点数据，别笑，这是真的。你今晚刷了60个短视频，累计上报3000条数据。作为日活破亿的APP，日增埋点数据量= 3000 x 1亿 = 3000亿，也就是每日增量TB级别的数据增长！

2025-01-15 23:18:05 646 1

从毕业到现在，对模型的认识不断被刷新重建，尤其是后来接触越来越复杂的业务，设计的模型被一次次鞭笞和灵魂拷问（下游吐槽），才积累出心得。5年后，我又转去做数据治理，开始轮到我吐槽别人的模型：SLA被一个指标严重拖垮；这个指标命名相同，但含义却不一致；每日历史全量表占据太多存储空间，修改TTL又影响Backfill重新写脚本；订单指标重复开发，下游不知道用哪个，每次都来问；Backfill的时候，部分表出现数据短板。精辟1. 高内聚、低耦合2. 核心和拓展模型分离。

2025-01-15 23:11:34 2093

原创让数据工程师势不可挡的 7 个习惯

让数据工程师势不可挡的 7 个习惯

2025-01-12 16:28:37 1477

原创 SQL千亿数据膨胀OOM优化经验

整体优化也花了一天的时间，主要这个任务太大，改动一些参数要看效果，也得等到5小时以后，解决问题的过程和思路还是值得复制在其他地方，借此以飨读者。如果它对您有一些价值，可以关注一下，原创不易，需要支持。参考阅读。

2025-01-12 16:24:05 1523

原创 Spark性能调优：Spill内存溢出

在Spark中，如果数据集太大，超出了处理数据的机器的内存，那么Spark就会把这部分数据先存到硬盘里，等内存有空了再从硬盘读回来。这个过程叫做溢出。这样做会很慢，因为硬盘读写速度远不如内存。掌握Spark性能调优，尤其是Spill溢出处理，对于优化大数据处理至关重要。通过解决数据倾斜、增加内存、合理设置Shuffle分区和文件分区大小，你可以显著提升Spark作业的效率，让你的Spark应用飞起来！

2025-01-10 21:05:24 875

原创直播电商：不一样的数据倾斜SQL优化

非NULL、热点key带来的数据倾斜，一线生产案例，还原最真实的场景。

2025-01-10 12:21:01 440

熊大数据

原创人人都可以转型数仓？数仓“护城河”在哪里

原创面试官陷阱：如何在Spark中正确提取Json数据？

原创从业务到数仓-网约车平台Grab数据建模

原创让数据工程师势不可挡的 7 个习惯

原创 SQL千亿数据膨胀OOM优化经验

原创 Spark性能调优：Spill内存溢出

原创直播电商：不一样的数据倾斜SQL优化

空空如也

空空如也