共勉zzz-优快云博客

原创 flink sql基本能力与核心机制

mini-batch 的主要作用是。

2025-02-13 16:05:49 1091

3、你谈到你的覆盖漏损gap比美团用户平台自有数据的gap更低，你清楚你低在哪里吗？6、讲述一下mapreduce的原理，数据倾斜主要体现在mr的哪几个阶段？有25匹马，5个赛道，每个道最多跑5匹马，问最少比多少次，可以选出跑的最快的前三名？9、你是怎样处理快照表生命周期晚于需要刷数起始时间的问题的？11、事务事实表、周期快照事实表、累计快照事实表分别是什么？7、说一下你的python-shell脚本解决了什么问题，底层实现原理是怎样的？阿里巴巴大数据之路你最感兴趣的部分，讲一讲它对你工作的帮助？

2024-11-04 16:35:50 1281

原创大数据技术进阶-spark的分布式join策略选择（附实例）

不论是shuffle join还是broadcast join，一旦数据分发完毕，理论上可以采用HJ、SMJ、NLJ这3种实现机制中的任意一种，完成Executors内部的数据关联。因此，两种分发模式，与三种实现机制，组合起来，共有6种分布式join策略。对于等值关联，spark sql优先考虑采用broadcast hj策略，其次是shuffle smj，最后是shuffle hj，对于不等值关联，spark sql优先级为 broadcast nlj>shuffle nlj。

2024-09-19 15:46:26 940

原创刷历史数据时，发现某表的生命周期晚于要刷数的起始时间.......

获取当前日期的分区，并根据add_time卡时间，可以在并行时避免较早时间刷不到数的情况。刷历史数据时，发现某表的生命周期晚于要刷数的起始时间。

2024-08-16 16:53:03 253

原创利用较大时间范围增量表制作快照时的一种夜间生产优化方式

当我们在利用大量中的数据加工时，往往需要在集市层的大宽表中的数据，但有一种用于的优化思路，可以不必扫描整张增量大宽表，而是通过利用与进行union，来完成当天的生产。

2024-08-02 16:30:18 223

原创 [大数据基本功]数仓中某张表执行时间过慢的优化思路

可以在上游使用hint,通过使用coalesce或者repartition减少map阶段的task数量，从而控制上游产生的文件数，这时下游就不需要再去进行小文件合并了。参考：https://blog.youkuaiyun.com/zfxhz/article/details/140385442?3）找到对应sql, 对其中每个可能导致数据倾斜的字段，通过count(1)+group by的方式排查是哪个字段的某个键数量过多导致了数据倾斜。2）在spark sql的整体dag里，根据stage id查看对应的sql。

2024-07-26 15:30:29 480

原创一次由于join粒度不统一导致数据膨胀的错误

最后再sum汇总的话，对于id 1在t3上的作用域调用次数，就由50000变成了150000，这就是。考虑到收单交易的宽表太大，计算耗时明显大于其他业务部分的表，为了方便sql的查询，我。，在最外层进行了sum，并在最后按照id做group by。下面是我最初的错误代码，这段sql主要是为了查询时间区间内。可以看到，经过加工后的t2表，因为无需再按天汇总，我便直接。，即可，这样也无需最外层的sum和group by了。进行了join操作，单独看也是没问题的。对于剩下需要join的任务域，我。

2024-07-19 16:15:34 509

原创（大数据基本功）Spark小文件处理

4、当一个分区的数据量比较大时，使用distribute by产生的文件就会非常大，且作业执行就会比较慢，此时可以通过。3、当写出动态分区时，按照动态分区进行distribute by，如果目标表有三个动态分区dp1,dp2.dp3，就。这样做的目的是确保每个分区内的数据量尽可能均匀，从而避免某些分区过大或过小的问题。小文件过多时，下游任务拉取上游数据花费时间会增多，任务执行过程耗时变长，可能导致下游作业数据生产延迟或失败。（3）避免某个字段倾斜，多考虑几个字段，降低倾斜的概率。

2024-07-12 17:49:54 892

原创（大数据开发基本功）维度建模方法

描述业务过程中涉及的“谁、什么、哪里、何时、何地”等问题，人们观察数据的特定角度，例如：地理维度（包含国家、省、市区等级别内容）：表示对业务过程的度量，事实通常是数字类型的，可以进行聚合与计算，例如下单金额。质量：通过模型加工改善数据质量，通过模型对外输出统一的统计口径，降低出错概率。：组织完成的操作性活动，例如：下单、支付、退款等，不可拆分的行为事件。：确定某一事实表的行表示的是什么，例如：订单粒度。4、确定事实：原价、优惠金额、配送费、打包费。3、确定维度：下单时间、用户、配送区域。

2024-07-04 16:57:12 381

原创 [美团]大数据开发工程师技术面汇总面经

14.继续盘问了上一道手撕题目代码在hadoop底层的执行过程，每一段执行几轮map几轮reduce(没太懂在问什么，根据自己的理解大概说了说)第一道签到题，第二道主要考察专窗的应用，第三道主要考察聚合开窗的应用。5.讲述一个你曾经做大数据优化的经历，如何解决，达到了什么样的效果。13.一个难度较高，较怪异的手撕，需要发掘数据之间的联系，编程解决。11.学习大数据的过程中遇到了什么技术上的难题，如何解决。7.在***实习都做了什么工作，py脚本是什么原理。14.一个中等偏下难度的手撕算法，分治可解决。

2024-06-24 22:49:15 623

原创 ZK/Flume/DataX/MaxWell/DS/JSE知识点复习

多线程是指程序中包含多个执行流，即一个程序中可以同时运行多个不同的线程来执行不同的任务。优点：可以提高cpu的利用率。多线程中，一个线程必须等待的时候，cpu可以运行其它的线程而不是等待，这样大大提高了程序的效率。线程安全是指在多线程环境下，当多个线程同时访问某个共享资源时，能够确保该资源的操作不会导致数据的不一致或损坏，并且能够正确地处理并发访问的情况。竞态条件：多个线程同时访问共享资源，导致结果的不确定性或错误的执行顺序。数据竞争：多个线程同时读写共享的可变数据，可能会导致数据的不一致性或损坏。

2024-04-19 20:00:09 1453 1

zfxhz的博客

原创 flink sql基本能力与核心机制

原创（杭州大数据RD面经）字节、阿里、滴滴问题汇总

原创大数据技术进阶-spark的分布式join策略选择（附实例）

原创刷历史数据时，发现某表的生命周期晚于要刷数的起始时间.......

原创利用较大时间范围增量表制作快照时的一种夜间生产优化方式

原创 [大数据基本功]数仓中某张表执行时间过慢的优化思路

原创一次由于join粒度不统一导致数据膨胀的错误

原创（大数据基本功）Spark小文件处理

原创（大数据开发基本功）维度建模方法

原创 [美团]大数据开发工程师技术面汇总面经

原创 ZK/Flume/DataX/MaxWell/DS/JSE知识点复习

原创 Spark知识点复习

原创 Hive知识点复习整理

原创 Kafka知识点复习整理

原创 hadoop知识点整理

原创【Basic algorithm Part I】Quick+Merge-Sort+Bisection

原创【递归+深搜+剪枝】详解+模板（不小心秒了三道题）

空空如也

空空如也