自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 flink sql基本能力与核心机制

mini-batch 的主要作用是。

2025-02-13 16:05:49 870

原创 (杭州大数据RD面经)字节、阿里、滴滴问题汇总

3、你谈到你的覆盖漏损gap比美团用户平台自有数据的gap更低,你清楚你低在哪里吗?6、讲述一下mapreduce的原理,数据倾斜主要体现在mr的哪几个阶段?有25匹马,5个赛道,每个道最多跑5匹马,问最少比多少次,可以选出跑的最快的前三名?9、你是怎样处理快照表生命周期晚于需要刷数起始时间的问题的?11、事务事实表、周期快照事实表、累计快照事实表分别是什么?7、说一下你的python-shell脚本解决了什么问题,底层实现原理是怎样的?阿里巴巴大数据之路你最感兴趣的部分,讲一讲它对你工作的帮助?

2024-11-04 16:35:50 1110

原创 大数据技术进阶-spark的分布式join策略选择(附实例)

不论是shuffle join还是broadcast join,一旦数据分发完毕,理论上可以采用HJ、SMJ、NLJ这3种实现机制中的任意一种,完成Executors内部的数据关联。因此,两种分发模式,与三种实现机制,组合起来,共有6种分布式join策略。对于等值关联,spark sql优先考虑采用broadcast hj策略,其次是shuffle smj,最后是shuffle hj,对于不等值关联,spark sql优先级为 broadcast nlj>shuffle nlj。

2024-09-19 15:46:26 833

原创 刷历史数据时,发现某表的生命周期晚于要刷数的起始时间.......

获取当前日期的分区,并根据add_time卡时间,可以在并行时避免较早时间刷不到数的情况。刷历史数据时,发现某表的生命周期晚于要刷数的起始时间。

2024-08-16 16:53:03 215

原创 利用较大时间范围增量表制作快照时的一种夜间生产优化方式

当我们在利用大量中的数据加工时,往往需要在集市层的大宽表中的数据,但有一种用于的优化思路,可以不必扫描整张增量大宽表,而是通过利用与进行union,来完成当天的生产。

2024-08-02 16:30:18 191

原创 [大数据基本功]数仓中某张表执行时间过慢的优化思路

可以在上游使用hint,通过使用coalesce或者repartition减少map阶段的task数量,从而控制上游产生的文件数,这时下游就不需要再去进行小文件合并了。参考:https://blog.youkuaiyun.com/zfxhz/article/details/140385442?3)找到对应sql, 对其中每个可能导致数据倾斜的字段,通过count(1)+group by的方式排查是哪个字段的某个键数量过多导致了数据倾斜。2)在spark sql的整体dag里,根据stage id查看对应的sql。

2024-07-26 15:30:29 376

原创 一次由于join粒度不统一导致数据膨胀的错误

最后再sum汇总的话,对于id 1在t3上的作用域调用次数,就由50000变成了150000,这就是。考虑到收单交易的宽表太大,计算耗时明显大于其他业务部分的表,为了方便sql的查询,我。,在最外层进行了sum,并在最后按照id做group by。下面是我最初的错误代码,这段sql主要是为了查询时间区间内。可以看到,经过加工后的t2表,因为无需再按天汇总,我便直接。,即可,这样也无需最外层的sum和group by了。进行了join操作,单独看也是没问题的。对于剩下需要join的任务域,我。

2024-07-19 16:15:34 375

原创 (大数据基本功)Spark小文件处理

4、当一个分区的数据量比较大时,使用distribute by产生的文件就会非常大,且作业执行就会比较慢,此时可以通过。3、当写出动态分区时,按照动态分区进行distribute by,如果目标表有三个动态分区dp1,dp2.dp3,就。这样做的目的是确保每个分区内的数据量尽可能均匀,从而避免某些分区过大或过小的问题。小文件过多时,下游任务拉取上游数据花费时间会增多,任务执行过程耗时变长,可能导致下游作业数据生产延迟或失败。(3)避免某个字段倾斜,多考虑几个字段,降低倾斜的概率。

2024-07-12 17:49:54 690

原创 (大数据开发基本功)维度建模方法

描述业务过程中涉及的“谁、什么、哪里、何时、何地”等问题,人们观察数据的特定角度,例如:地理维度(包含国家、省、市区等级别内容):表示对业务过程的度量,事实通常是数字类型的,可以进行聚合与计算,例如下单金额。质量:通过模型加工改善数据质量,通过模型对外输出统一的统计口径,降低出错概率。:组织完成的操作性活动,例如:下单、支付、退款等,不可拆分的行为事件。:确定某一事实表的行表示的是什么,例如:订单粒度。4、确定事实:原价、优惠金额、配送费、打包费。3、确定维度:下单时间、用户、配送区域。

2024-07-04 16:57:12 288

原创 [美团]大数据开发工程师技术面汇总面经

14.继续盘问了上一道手撕题目代码在hadoop底层的执行过程,每一段执行几轮map几轮reduce(没太懂在问什么,根据自己的理解大概说了说)第一道签到题,第二道主要考察专窗的应用,第三道主要考察聚合开窗的应用。5.讲述一个你曾经做大数据优化的经历,如何解决,达到了什么样的效果。13.一个难度较高,较怪异的手撕,需要发掘数据之间的联系,编程解决。11.学习大数据的过程中遇到了什么技术上的难题,如何解决。7.在***实习都做了什么工作,py脚本是什么原理。14.一个中等偏下难度的手撕算法,分治可解决。

2024-06-24 22:49:15 508

原创 ZK/Flume/DataX/MaxWell/DS/JSE知识点复习

多线程是指程序中包含多个执行流,即一个程序中可以同时运行多个不同的线程来执行不同的任务。优点:可以提高cpu的利用率。多线程中,一个线程必须等待的时候,cpu可以运行其它的线程而不是等待,这样大大提高了程序的效率。线程安全是指在多线程环境下,当多个线程同时访问某个共享资源时,能够确保该资源的操作不会导致数据的不一致或损坏,并且能够正确地处理并发访问的情况。竞态条件:多个线程同时访问共享资源,导致结果的不确定性或错误的执行顺序。数据竞争:多个线程同时读写共享的可变数据,可能会导致数据的不一致性或损坏。

2024-04-19 20:00:09 1332 1

原创 Spark知识点复习

​ 最后一个RDD的分区个数就是Task的个数因为Stage中的每个Task都负责处理输入RDD的一个分区,而在一个阶段中,数据已经按照前面的转换操作进行了划分,最后一个RDD的分区个数决定了最终的任务数。(5)groupBy: 将RDD中的元素按照给定的键进行分组,并返回一个元素为(键,Iterable)元组的RDD,其中每个元组表示一个键和该键对应的所有元素的迭代器。(2)Hadoop的Shuffle是必须排序的,那么不管是Map的输出,还是Reduce的输出,都是分区内有序的。

2024-04-18 17:29:03 597

原创 Hive知识点复习整理

常用UDF函数解析公共字段;用UDTF函数解析事件字段公共字段(Attributes):这些字段通常包含与实体或对象相关的静态信息或属性。例如,对于一个电子商务网站,公共字段可能包括产品的名称、价格、类别等信息。这些信息通常是固定不变的,不随着时间的推移而改变。事件字段(Events):这些字段描述了在特定时间点或时间范围内发生的动态事件或行为。例如,对于同一个电子商务网站,事件字段可能包括用户的购买行为、浏览产品的行为、加入购物车的行为等。

2024-04-17 18:55:23 1360

原创 Kafka知识点复习整理

在传统的数据传输过程中,数据通常需要经过多次复制,例如从磁盘读取到内存,再从内存复制到网络缓冲区,最后从网络缓冲区复制到传输目的地的内存中。通过这些优化,Kafka 可以在消息的生产和消费过程中实现零拷贝,减少了不必要的数据复制操作,降低了系统的负载,提高了数据传输的效率和性能。批次拉取数据过少(拉取数据、处理时间<生产速度),使处理的数据小于生产的数据,也会造成数据挤压。1)如果kafka消费能力不足,可以考虑增加topic的分区数,同时提升消费组的消费者数量,消费者数=分区数。

2024-04-16 12:28:57 343

原创 hadoop知识点整理

hadoop高频面试题整理

2024-04-15 22:26:59 1369

原创 【Basic algorithm Part I】Quick+Merge-Sort+Bisection

快排、归并、二分的模板+例题

2022-07-09 02:44:23 113

原创 【递归+深搜+剪枝】详解+模板(不小心秒了三道题)

最近开始恢复刷一些题,难度不是很大,今天是三道类似的题,大概就是利用递归进行深度搜索,搜索的同时带一定的回溯剪枝来缩短搜索时长。ac掉第一道后,剩下两道稍微改了改也很神奇地秒掉了,所以来记录一下,希望对大家有帮助。...

2022-06-27 21:26:46 556 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除