
Hadoop
顾国玉
这个作者很懒,什么都没留下…
展开
-
Hadoop支持lzo压缩(版本cdh5.15.1)
参考文章:https://www.iteblog.com/archives/992.htmlhttps://blog.youkuaiyun.com/muyingmiao/article/details/102259663https://programmer.group/using-lzo-compression-and-supporting-slicing-for-hadoop.htmlHadoop经...原创 2019-10-12 16:58:57 · 707 阅读 · 0 评论 -
Hadoop常用命令
文章目录1 hadoop命令2 hdfs命令3 hdfs dfs命令(⭐️⭐️⭐️)1 hadoop命令在终端输入hadoop,会出现此命令可用的一些参数[hadoop@izuf621gcimj21arvwjqo6z ~]$ hadoop#Usage:使用的格式Usage: hadoop [--config confdir] COMMAND where COMMAND is...原创 2019-08-01 17:28:05 · 257 阅读 · 0 评论 -
mr on yarn架构设计
架构图RM: ResourceManagerNM: NodeManager1.用户向yarn提交job,其中包含Application master程序,以及启动Application master的脚本等2.RM为该job分配第一个Container,与对应的NM通信,要求他在这个Container启动作业的Application master3.Application master...原创 2019-08-02 11:31:11 · 337 阅读 · 0 评论 -
Hive DDL DML 内置函数 wc统计
文章目录一 创建表1.1 create...like...1.2 Create Table As Select二 修改表三 删除表3.1 Drop Table3.2 Truncate Table四 内部表和外部表五 Load导入表数据六 聚合函数七 case when八 order by、sort by、distribute by、cluster by8.1 order by8.2 sort by...原创 2019-08-09 15:51:06 · 453 阅读 · 0 评论 -
Hadoop HA架构图
文章目录一 HDFS HA架构图1.1相关的缩写描述:1.2 架构说明1.3 NN active1.4 NN standby1.5 JN1.6 zkfc二 Yarn Ha架构图2.1 ResourceManager(RM)2.2 NodeManager(NM)2.3 ApplictionMaster(AM)2.4 RMstatestore2.5 zkfc一 HDFS HA架构图架构图如下:...原创 2019-08-19 16:39:24 · 1261 阅读 · 0 评论 -
Hadoop HA集群搭建(3台阿里云)
文章目录一 阿里云主机(3台)1.1 选择云服务器ECS1.2 创建实例1.3 基本配置1.4 网络和安全组1.5 系统配置1.6 确认实例1.7 实例列表二 环境准备2.1 用户和目录准备2.2 软件2.3 ip与hostname绑定2.4 设置3台机器ssh免密通信2.5 jdk安装2.6 安装ZooKeeper一 阿里云主机(3台)注册和充值这里就不演示了,我们需要购买3台机器,然后选择...原创 2019-08-20 13:08:47 · 1121 阅读 · 1 评论 -
hadoop2.6.0-cdh5.15.1编译源码支持压缩
文章目录一 为什么要编译二 环境条件三 安装依赖四 安装软件4.1 jdk1.74.2 maven4.3 protobuf五 编译hadoop六 伪分布式部署一 为什么要编译直接从官网上下载的hadoop-2.6.0-cdh5.15.1.tar.gz部署后,不支持压缩,生产上是不可接受的,我们可以用下面命令查看:hadoop checknative所以我们要进行编译,让他支持压缩二 ...原创 2019-08-17 16:00:49 · 713 阅读 · 0 评论 -
shell脚本检测hdfs ha发生failover时,发送邮件预警
当hdfs ha集群启动之后,我们可以通过获取配置文件key的获取到一些value信息,然后可以得到hdfs的机器名,serviceid,状态是active还是standby;准备两个文件HDFS_HA_LAST.log和HDFS_HA.log,保证每次获取信息第一行放activeHDFS_HA_LAST.log文件内容如下:hadoop001 nn1 activehadoop002 nn...原创 2019-08-26 10:16:52 · 442 阅读 · 0 评论 -
IDEA中MR提交作业到yarn,踩坑汇总
跑mapreduce任务只知道在在本地打成jar,提交到hadoop集群上去跑任务,如果出现错误往往很难定位错误,所以远程debug是开发中不可或缺的技能一 Permission denied(权限问题)权限问题,idea运行job时,报如下错误Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.securi...原创 2019-09-03 17:58:58 · 1587 阅读 · 1 评论 -
hdfs伪分布式 部署
1.广义和狭义广义:以apache hadoop软件为主的生态圈,例如hive,sqoop,spark,flink等等狭义:就是apache hadoop软件hadoop版本:目前主流为2.x,但是官方已经有3.x,但是目前用的很少,因为一些版本兼容问题,比方说hadoop是一个团队开发的,其他兼容的软件例如spark是另外团队开发的,要进行同步兼容的目前主流都是通过cdh搭建,公司主页...原创 2019-07-28 00:17:24 · 466 阅读 · 0 评论 -
HDFS 读写流程
1 读流程1.Client通过FileSystem.open(filepath)方法2.与NN节点进行【RPC】协议通信,检验是否有权限,检验filepath是否存在3.返回【FSDataInputStream】对象,含有读取文件的部分或者全部block列表(包含各个block块分布在DN地址的列表)4.Client调用【FSDataInputStream】的read方法5.选择最近的一...原创 2019-08-01 10:56:16 · 159 阅读 · 0 评论 -
hadoop如何找参数,并进行配置
1 hadoop节点说明先说明下hadoop启动后的几个进程说明(后面有案例配置secondary namenode)namenode,简写nn 名称节点,这个是老大datanode,简写dn,数据节点,这个是小弟,真正干活的secondary namenode,简写snn,第二名称节点,老二,如果老大挂了,老二会顶上去2 如何找参数1.当我们要对hadoop进行配置时,我们怎么知...原创 2019-07-29 16:11:57 · 1022 阅读 · 0 评论 -
了解hadoop的pid文件
1 存储位置hadoop启动之后,pid文件是存储哪里?我们可以通过查看 hadoop-env.sh文件cat etc/hadoop/hadoop-env.sh从下图可以看出hadoop默认的pid文件是存储到/tmp目录的从下图可以看出,后缀名是.pid的就是hadoop的pid文件2 启动和停止我们启动的时候,是执行sbin/start-df.sh文件,我们看一看这个文件...原创 2019-07-30 10:54:14 · 1387 阅读 · 0 评论 -
部署yarn,并跑一个wordcount的案例
1部署yarnMapReduce:做计算的,一般是jar包,生产商现在很少用,因为代码复杂,一般用hive sql 等等,是不需要部署的,运行在yarn上Yarn: 资源和作业的调度,需要部署1.切换到etc/hadoop下面,并将mapred-site.xml.template拷贝出来一份mapred-site.xml,然后编辑mapred-site.xmlvi mapred-site....原创 2019-07-30 17:34:43 · 890 阅读 · 0 评论 -
yarn资源调优的几个参数
准备知识每个job提交到yarn执行的时候,都会分配container容器去运行,而这个容器需要资源才能运行,那这个资源就是cpu和内存,也就是每个任务container都需要CPU和内存,那么下面我们从CPU和内存去分析CPU资源调度目前的CPU被划分为虚拟CPU(CPU virtual Core),这里的虚拟CPU是yarn自己引入的概念,因为每个服务器的CPU计算能力不一样,有的机器可...原创 2019-08-02 23:47:39 · 17275 阅读 · 5 评论 -
HDFS的block块和副本数
1 block块HDFS官方默认的值为:128m如下图,我们可以计算下134217728 / 1024 = 131072k131072 / 1024 = 128m比方说一个文件135m,那么会用下面的计算方式135 % 128 = 1 余 7先对128取模,得出1,余数为7;那么在HDFS系统会有2个块,1个块128m,1个块7m。举个例子:有一碗水135ml,一个拼字的规...原创 2019-07-31 11:26:37 · 3540 阅读 · 0 评论 -
wordcount案例的shuffle过程分析
如上图,假设,有个文件为test.log,大小为260mb,内容是一些单词,我们要对这些单词进行统计,统计每个每个单词出现的总次数,称之为:wordcount,下面我们分析分析mapreduce流程是怎么走的1 Splittingsplitting阶段是对我们的文件进行拆分,正常的block块默认是128m,我们文件大小为260m,那么260/128=2余4,那么一般会被拆成2个128m,...原创 2019-08-03 21:18:34 · 600 阅读 · 0 评论 -
yarn三种调度器
在理想状态下,我们对yarn的资源请求,应该是立即得到相应,但是实际情况往往资源是有限的,如果集群很繁忙的话,一个应用的资源请求需要等待一段时间才能得到资源。为此yarn提供了三种调度器供我们选择1 FIFO SchedulerFIFO Scheduler 把应用按照提交的顺序拍成一个队列,上图是一个先进先出的队列,但是他并不适合共享集群,上图中job1在0点提交任务,资源使用率为100%,...原创 2019-08-04 11:42:09 · 2003 阅读 · 0 评论 -
HDFS架构之NN,DN,SNN以及副本放置策略
1.HDFS是一个主从架构,NameNode是老大,SecondaryNameNode是老二,老大挂了,老二会直接顶上去2.RACK机架下面这个图就是RACK机架,用来放服务器的,每台机架上可以放置多台服务器下面我们看下HDFS架构图1. NN 名称节点主要作用:管理文件系统的命名空间主要存储:文件系统的命名空间,包含:a.文件名称b.文件目录结构c.文件的属性(例如 权限,...原创 2019-07-31 17:23:15 · 1413 阅读 · 0 评论 -
以hostname对service应用进行配置
1 为什么要用hostname对service的配置文件进行配置?我们先看一个hadoop的配置文件,然后引出问题<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://172.17.2.53:9000</val...原创 2019-07-29 12:30:03 · 1158 阅读 · 0 评论