自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 spark中宽依赖、shuffle、stage的理解

在宽依赖中,一个父RDD的分区的数据可能要发往多个子RDD的分区,即子RDD的数据通常来自于父RDD的所有分区,更本质的说法是,无法事先确定父RDD的一个分区的数据该如何发往子RDD的分区。在窄依赖中,父RDD的一个分区的数据只会发往子RDD的一个分区,即子RDD的数据通常确定的来自于父RDD的某一个或几个分区的数据,因此可以在一个executor的一个task上以流水线的方式(pipline)顺序执行多个算子,完成计算。首先,stage内的多个task分别处理不同分区的数据,是并行执行的。

2024-05-22 17:30:44 385 1

原创 OLAP开源引擎对比之历史概述

OLAP概念诞生于1993年,有史可查的第一款OLAP工具是1975年问世的Express,后来走进千家万户的Excel也可归为此类,这个概念主要是在大数据圈里流传,而在大数据领域里,目前主流的OLAP开源引擎都诞生于2006年以后,那一年hadoop横空出世,而后大数据分析的各种方法论和引擎也随之兴起。本文主要介绍Hive、Spark SQL、Presto、Kylin、Impala、Druid、Clickhouse、Greenplum、StarRocks,并不代表全部,但确实是国内大数据分析领域内应用最广

2024-05-08 08:47:06 1149 1

原创 2024 开源数据工程生态系统全景图

​ 虽然生成式人工智能和ChatGPT带来的沸沸扬扬的炒作令科技界为之一振,但在数据工程领域,2023年仍然是一个令人振奋和充满活力的一年,数据工程生态系统变得更加多样化和复杂化,系统中的所有层面都在不断创新和演进。​ 随着各种开源工具、框架和解决方案的持续涌现,数据工程师的选择也越来越多!在这样快速变化的环境中,紧跟最新技术和趋势的重要性不言而喻。选择合适的工具来完成合适的工作是一项至关重要的技能,确保在不断变化的数据工程挑战面前保持效率和相关性。

2024-05-05 17:45:50 1032 2

原创 谈谈数据问题排查思路

排查数据问题,是数据仓库工程师工作中很重要的一部分。而且同样的数据问题可能会反复出现。所以比较好的做法是,每次排查后都做总结,在一个公共页面(WIKI)上,记录下问题的现象、排查的过程、找到的原因、对应的解决方案。这样不断积累下来,后续排查问题的效率就会越来越高,并且可以让自己以后避免再犯类似的错误,持续精进自己。在进行总结时,要注意以下几点:1.问题描述要清晰,排查步骤要明确。描述清晰指要把问题发生的背景和现象都要写清楚,这样其他人才容易看明白。

2024-05-05 10:10:22 1411 2

原创 数据漂移问题及解决方案

数据漂移是 ODS 数据的一个顽疾,通常指 ODS 表的同一个业务日期数据中包含前一天或后一天凌晨附近的数据或者丢失当天的变更数据。

2024-05-04 20:47:16 1593 1

原创 图文详解MapReduce工作机制

1、准备好待处理文本。2、客户端submit()前,获取待处理数据的信息,然后根据参数配置,形成一个任务分配的规划。3、客户端向Yarn请求创建MrAppMaster并提交切片等相关信息:job.split、wc.jar、job.xml。Yarn调用ResourceManager来创建MrAppMaster,而MrAppMaster则会根据切片的个数来创建MapTask。其中。

2024-05-04 16:57:11 836

原创 Hive中的FileFormat、RowFormat和SerDe总结

精炼一下:Hive的执行引擎首先通过InputFormat读取一条一条的数据记录,接着调用Serde.destrialize()来执行记录的反序列化,即将各种格式的数据反序列化为行对象,其中就包括切分和解析字段。除了内置的文件格式,Hive还支持用户开发的文件格式,此时,需要显式的指定inputformat 和outputformat,此时若不指定SerDe,会使用默认的SerDe。需要注意的是,同一种文件格式的每一行数据的行格式也会有所不同,这就涉及到另一个概念:RowFormat。

2024-05-04 16:41:47 776

原创 浅谈Spark中的闭包引用和广播变量

闭包引用的场景中,Spark为每个task都复制了一份它需要的数据,当数据量较大且task较多时,必然会给网络io和内存资源造成很大压力,而广播变量只给每个executor发送一份变量副本,由多个task共享。广播变量中,一个executor只持有一份广播变量的副本,由多个task共享,该数据是只读的,不可修改。因为在闭包函数内的修改,只是在task上对复制过来的闭包对象副本的修改,并不会影响到driver端的原对象,他们是存在于两台机器上的独立的文件,互不影响。中创建的,RDD的计算是在。

2024-05-04 16:36:46 525 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除