
Hadoop生态相关
文章平均质量分 74
isharpener
这个作者很懒,什么都没留下…
展开
-
mac搭建Hadoop环境流程
如果遇到 “Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured.” 问题,则是hadoop配置 的环境变量没有设置好 或者设置错误,需要重新设置。/etc/hadoop文件夹下没有mapred-site.xml 文件,需要将 mapred-site.xml.template 拷贝一下再修改。在sbin目录运行命令。原创 2023-09-20 11:16:50 · 2052 阅读 · 0 评论 -
Kafka接收mysql binlog日志
在生产者终端输入字符串,消费者终端会进行输出。下载压缩包,我下载的是1.19.0 版本。(3)、启动生产者进程和消费者进程。(1)、安装Kafka。(2)、创建事件单元。原创 2023-07-27 12:01:43 · 1008 阅读 · 0 评论 -
Spark计算框架(Pair RDD行动和变换)
一、概念Pair RDD: 键值对形式的弹性分布式数据集,这是Spark中一种常见的数据类型,常用于聚合操作,也经常会将一些初始的ETL保存为键值对的格式。键值对RDD拥有不同于普通RDD的新操作,比如分组。二、变换算子对单个pair RDD 的变换(例子:{(1,2), (3, 4), (3, 6)})首先初始化该RDD:val rdd = sc.parallelize(Array((1, 2), (3, 4), (3, 6)))函数名目的示例结果reduce原创 2022-02-26 16:47:40 · 1246 阅读 · 0 评论 -
Spark HashShuffle与SortShuffle
一、Spark Shuffle 历史在Spark1.2之前,默认的Shuffle计算引擎是HashShuffleManager。而HashShuffleManager有一个非常严重的弊端,就是会产生大量的中间磁盘文件,进而大量的磁盘IO操作影响了性能。因此在Spark 1.2 以后的版本中,默认的ShuffleManager改成了SortShuffleManager。SortShuffleManager相较于HashShuffleManager来说,有了一定的改进。主要就在于,每个sask在进行shuf原创 2022-02-18 18:20:22 · 901 阅读 · 0 评论 -
Spark计算框架(基础RDD行动和变换)
一、概念RDD:弹性分布式数据集,简单来说就是元素的分布式集合,在Spark中,所有的工作都被表达为创建新的RDD,对以存在的RDD做变换,或者对RDD调用行动来计算得到一个结果变换:指对RDD进行一次操作,生成另外一个RDD的过程行动:指对RDD进行一次操作,返回一个计算结果的过程二、变换算子针对一个包含{1, 2, 3, 3}的RDD进行基本的变换函数名目的示例结果map()应用函数到RDD中的每一个元素,并返回一个结果RDDrdd.map(x原创 2022-02-12 15:28:47 · 910 阅读 · 0 评论 -
MapReduce的Shuffle过程
一、Map端每个输入分片(默认64MB)会让一个map任务来处理,map输出的结果会存放在一个环形缓冲区(默认100MB,由io.sort.mb控制)内,当缓冲区快要溢出(超过缓冲区大小80%,由io.sort.spill.percent属性控制)的时候,会在本地文件系统创建一个溢出文件,将缓冲区的数据写入这个文件在写入磁盘之前,线程会根据reduce的任务数将数据划分为相同数目的分区,也就是一个reduce任务对应一个分区的数据。这样是为了避免有的reduce分配到大量数据,而有的reduce任务原创 2021-06-22 19:53:31 · 298 阅读 · 2 评论 -
HDFS读写数据流程
HDFS读写数据流程一、写数据客户端通过Distributed FileSystem 模块向NameNode请求上传文件,NameNode检查目标文件是否存在,父目录是否存在NameNode返回是否可以上传客户端请求NameNode, 获取第一个Block上传至哪几个DataNode服务器上面NameNode返回3个DataNode节点,分别为dn1,dn2,dn3客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求后调用dn2,dn2调用dn3,建立通信管道原创 2021-06-21 20:01:19 · 201 阅读 · 0 评论