
Hadoop模块化学习
Hadoop模块化学习
SmallScorpion
Look at the world with reptiles and write code for the rest of your life;
Illuminate the stars with data and conquer the sea with technology
展开
-
Hadoop-lzo之LZO编译
hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译1. 环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)gcc-c++zlib-develautoconfautomakelibtool通过yum安装即可,yum -y install gcc-...原创 2020-03-15 18:21:28 · 958 阅读 · 0 评论 -
Hadoop中Mapreduce的WordCount案例实操
一、MapReduce编程规范1.1 Mapper阶段用户自定义的Mapper要继承自己的父类Mapper的输入数据时KV对的形式(KV的类型可自定义)Mapper中的业务逻辑写在map() 方法中Mapper的输出数据是KV对的形式(KV的类型可自定义)map() 方法(MapTask进程)对每一个<K,V>调用一次2.1 Reduce阶段用户自定义的...原创 2020-02-14 19:53:41 · 714 阅读 · 0 评论 -
Hadoop中Mapreduce的Job默认切片流程源码解析
一、解析步骤进入writeSplits()方法1. writeNewSplits -> 新API切片进入writeNewSplits()方法2. input -> InputFormat实例3. InputFormat -> 输入格式的父类进入InputFormat 类中关闭InputFormat 类中4. getSplits() ->...原创 2020-02-13 15:58:56 · 347 阅读 · 0 评论 -
Hadoop中Mapreduce的Job任务提交流程源码解析
一、源码解析步骤1. 设置断点在Driver的job任务提交打上断点进行Debug调试进入其中(F7:进入; F8:下一步; Alt+Shift+F7:强制进入;Shift+F8:退出)进入waitForCompletion()2. submit() -> 提交任务submit()方法作用是将我们的job提交到yarn集群(现在是本地模式)进入submit()...原创 2020-02-12 20:50:44 · 1097 阅读 · 0 评论 -
电商数仓3.0 LZO压缩配置
资料lzo.jar链接:https://pan.baidu.com/s/13PtZPMvmRLXn243hS1X-pQ提取码:v6t6放置Jar包固定位置将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/[scorpion@warehouse102 02_hadoop]$ mv hadoop-lzo-0.4.20.jar /opt/module/hadoop-3.1.3/share/hadoop/common/cor原创 2020-10-16 16:49:49 · 221 阅读 · 0 评论 -
电商数仓3.0 集群数据均衡
服务器间的数据均衡集群有多台服务器组成,每台服务器是集群中的一个节点,节点间所存储数据的均衡处理开启数据均衡命令# 10 代表集群中各个节点的磁盘空间利用路不超过10%start-balancer.sh -threshold 10停止数据均衡命令# HDFS需要启动单独的Rebalance Server来执行Rebalance操作# 尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器。stop-balancer.sh磁盘间数据均衡一原创 2020-10-16 15:21:37 · 192 阅读 · 2 评论 -
电商数仓3.0 数据采集模块之Hadoop安装
集群所有进程查看脚本在/home/scorpion/bin目录下创建脚本xcall[scorpion@warehouse102 bin]$ vim xcall#! /bin/bash#集群所有进程查看脚本for i in warehouse102 warehouse103 warehouse104do echo --------- $i ---------- ssh $i "$*"done[scorpion@warehouse102 bin]$ chmod 777 xca原创 2020-10-15 16:53:29 · 148 阅读 · 0 评论 -
基于CentOS 7.2的CDH 6.3.2 Hadoop配置
基于CentOS 7.2的CDH6.3.2离线安装https://blog.youkuaiyun.com/qq_40180229/article/details/108755530基于CentOS 7.2的CDH 6.3.2完整集群添加https://blog.youkuaiyun.com/qq_40180229/article/details/108756561修改HDFS的权限检查配置关闭HDFS中的权限检查:dfs.permissions。2. 重启3. 重启过时服务4. 立即重启5. 完成原创 2020-09-24 11:52:24 · 555 阅读 · 0 评论 -
【hadoop】MapTask的Shuffle机制及源码解析
一、MapTask的Shuffle机制MapTask工作机制图解MapTask的Shuffle工作机制图解步骤解释3.1 Shuffle工作机制范围广义:Mapper端之后Reduce端之前的范围狭义:Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle3.2 MapTask工作机制Read阶段:MapTask通过用户编写的RecordRea...原创 2019-09-10 16:18:38 · 373 阅读 · 0 评论 -
【hadoop】MapReduce入门WordCountTop10
一、MapReduce概述定义MapReduc是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完成的分布式运算程序,并发运行在一个Hadoop集群上Mapreduce的优缺点优点:MapReduce易于编程:它简单的实现一些接口,就可以完成一个分布式程...原创 2019-09-09 19:06:57 · 617 阅读 · 0 评论 -
【hadoop】HDFS-HA工作机制
一、HA概述1)所谓HA(High Available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群:1. NameNode机器发生意外,如...原创 2019-09-07 10:32:52 · 801 阅读 · 0 评论 -
【hadoop】DataNode工作机制
图解文字解释1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某...原创 2019-09-05 21:20:52 · 346 阅读 · 0 评论 -
【hadoop】HDFS客户端操作和文件写数据源码解析
一、环境准备创建Maven工程HdfsClient,并导入相应的依赖坐标+日志添加<packaging>jar</packaging> <dependencies> <dependency> <groupId>junit</groupId> &l...原创 2019-09-03 15:19:03 · 329 阅读 · 0 评论 -
【hadoop】NameNode和SceondaryNameNode的工作机制
一、 为什么会存在这样的工作机制?1.NameNode中的元数据是存储在哪里的?(1)若是存储在NN节点的磁盘中,因为经常需要进行随机访问,或者是不断的被访问,还有要响应客户请求,效率必然很低,所以元数据需要存放在内存中,但如果存在内存中。一旦遇到突发状况,比如断电,元数据信息丢失,会造成集群瘫痪。因此产生在磁盘中备份元数据的FsImage。(2)可是又有新的问题,就是在NN做对客户的...原创 2019-08-30 00:04:44 · 415 阅读 · 0 评论 -
【hadoop】完全分布式运行模式
准备三台客户机(关闭防火墙、静态ip、主机名称)192.168.1.201 hadoop001192.168.1.202 hadoop002192.168.1.203 hadoop003将三台Linux都安装JDK,并配置好环境变量安装hadoop(data和logs不管,参照https://blog.youkuaiyun.com/qq_40180229/article/details/...原创 2019-08-28 15:22:49 · 167 阅读 · 0 评论 -
【hadoop】伪分布式运行模式深入
一、启动HDFS并运行MapReduce程序配置:hadoop-env.shvi etc/hadoop/hadoop-env.sh2. 配置:core-site.xml<!-- 指定HDFS中NameNode的地址 --><property><name>fs.defaultFS</name> <value>hd...原创 2019-08-27 20:21:36 · 168 阅读 · 0 评论 -
【hadoop】hadoop伪分布式操作入门
参考官方文档:http://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-common/SingleCluster.html下载包:https://hadoop.apache.org/releases.htmlhttps://hadoop.apache.org/releases.html安装JAVA 的JDK并配...原创 2019-08-26 16:55:56 · 449 阅读 · 0 评论