
大数据平台
文章平均质量分 80
欧晨eli
达·芬奇说:“理论脱离实践是最大的不幸,实践应以好的理论为基础。”
展开
-
变更数据捕获(CDC)
CDC是指从源数据库捕获到数据和数据结构(也称为模式)的增量变更,近乎实时地将这些变更,传播到其他数据库或应用程序之处。通过这种方式,CDC能够向数据仓库提供高效、低延迟的数据传输,以便信息被及时转换并交付给专供分析的应用程序。在数据不断变化,且无法中断与在线数据库连接的情况下,对于各种时间敏感(time-sensitive)类信息的复制,往往也是云端迁移的重要组成部分。CDC通过仅发送增量的变更,来降低通过网络传输数据的成本。CDC可以帮助用户根据最新的数据做出更快、更准确的决策。原创 2023-03-02 14:12:00 · 1417 阅读 · 0 评论 -
如何续订用于 Amazon EMR 身份验证的过期 Kerberos 票证
Host。转载 2022-11-18 15:13:41 · 639 阅读 · 0 评论 -
Exception while adding a block...Not replicated yet:
#log##转载 2022-11-16 14:57:42 · 1287 阅读 · 0 评论 -
HDFS 客户端常见报错整理
向 NameNode 进行 RPC 请求向 DataNode 进行 IO 读写。无论哪个过程,如果出现异常,一般都不会导致业务失败,也都有重试机制,实际上,业务想要失败是很难的。在实际使用过程中,客户端和 NN 之间的 RPC 交互一般不会有什么报错,大部分报错都出现在和 DN 的 IO 交互过程中,这篇文章主要总结一下常见的 DN IO 报错。转载 2022-11-16 14:51:38 · 4900 阅读 · 1 评论 -
HDFS读写数据流程
5、Client请求3台中的一台DataNode 1(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)上传数据(本质上是一个RPC调用,建立pipeline),DataNode 1收到请求会继续调用DataNode 2,然后DataNode 2调用DataNode 3,将整个pipeline建立完成,然后逐级返回客户端。4、NameNode返回3个DataNode服务器DataNode 1,DataNode 2,DataNode 3。2、NameNode返回是否可以上传。转载 2022-11-16 11:09:32 · 3970 阅读 · 0 评论 -
Hive SQL 参数与性能调优
代码优化原则:理透需求原则,这是优化的根本;把握数据全链路原则,这是优化的脉络;坚持代码的简洁原则,这让优化更加简单;没有瓶颈时谈论优化,这是自寻烦恼。--END--转载 2022-09-08 17:19:14 · 811 阅读 · 0 评论 -
万字长文详解HiveSQL执行计划
Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。explain,在查询语句的SQL前面加上关键字explain是查看执行计划的基本方法。学会explain,能够给我们工作中使用hive带来极大的便利!转载 2022-09-08 17:11:43 · 989 阅读 · 0 评论 -
Hive千亿级数据倾斜解决方案
当按照key进行两个表的join操作时,默认的Hash操作会按int型的id来进行分配,这样所有的string类型都被分配成同一个id,结果就是所有的string类型的字段进入到一个reduce中,引发数据倾斜。,因为如果一个任务的数据量只有几百万,它即使发生了数据倾斜,所有数据都跑到一台机器去执行,对于几百万的数据量,一台机器执行起来还是毫无压力的,这时数据倾斜对我们感知不大,只有数据达到一个量级时,一台机器应付不了这么多数据,这时如果发生数据倾斜,最后就很难算出结果。转载 2022-09-08 17:09:15 · 247 阅读 · 0 评论 -
Hive 数据倾斜问题定位排查及解决
多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。当执行过程中任务卡在 99%,大概率是出现了数据倾斜,但是通常我们的 SQL 很大,需要判断出是哪段代码导致的倾斜,才能利于我们解决倾斜。通过下面这个非常简单的例子来看下。转载 2022-09-08 17:05:32 · 364 阅读 · 0 评论 -
简单搞定Shuffle机制运行原理
7)合并成大文件后,shuffle的过程也就结束了,后面进入reducetask的逻辑运算过程(从文件中取出一个一个的键值对group,调用用户自定义的reduce()方法)3)具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行了分区和排序。Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率,原则上说,缓冲区越大,磁盘io的次数越少,执行速度就越快。1)maptask收集我们的map()方法输出的kv对,放到内存缓冲区中。转载 2022-09-07 14:40:59 · 369 阅读 · 0 评论 -
hive程序报错OOM,内存不足,OutOfMemoryError: Java heap space等解决方式
执行hive定时任务,发现有个定时任务报如下错误,Error: Java heap space.解决方式:1.将系统设置的set mapred.max.split.size = 300000000;我们原先的最大分片设置成200000000.降低切片大小,这样的坏处是会产生更多的map去执行。2.将上面集群的heap.size设置的更大些,比如2048(2g).设置方式如下:当然以上的配置信息,最好都直接写到每个hive定时任务里面即可,不用配置到集群里固定信息,这样能更好地利用集群资源。转载 2022-09-07 14:26:01 · 5910 阅读 · 0 评论 -
一文读懂 Hive Explain 执行计划
Hive 是基于 Hadoop,实现了通过 SQL 操作 MapRedue 任务,简化了大数据编程的难度,使得普通用户也可以完成大数据程序开发。SQL 目前是使用最为广泛的结构化数据操作语言,未来大数据框架对 SQL 的支持也必将是一种趋势。Hive 在经过一系列编译过程后生成执行计划并提交 MapReduce 等执行引擎端,数据开发人员除了具备 SQL 的编程能力之外, 还必须具备 SQL 执行效率定位能力,而执行计划就是开发人员快速打开 SQL 优化大门的一把钥匙。转载 2022-09-07 13:52:49 · 744 阅读 · 0 评论 -
hive调优系列—hive执行计划
执行结果如下,两个结果相同。笔者看到别的文章都表示上述两段sql结果不同,但是笔者实际执行的结果是相同的,基于hive2.1.1。准备好两张分区表以及测试数据后,sql案例如下,两段join的sql,关联条件加上了非等值判断。explain dependency主要用于分析sql的数据来源。转载 2022-09-07 13:48:31 · 2118 阅读 · 0 评论 -
hive调优系列—针对mapreduce进行调优
本文主要针对mapreduce的配置对hive进行调优。更多配置可查看hive官网。转载 2022-09-07 13:38:52 · 1247 阅读 · 0 评论