
Hadoop
Drgom
多做事,少说话
展开
-
Hadoop3的lzo的jar包
Hadoop默认不支持lzo压缩,需要配置hadoop配置lzo压缩lzo的jar链接:https://pan.baidu.com/s/1l1Qc69WebN1HCf1VlQeOXQ提取码:h295原创 2021-11-05 09:52:03 · 1263 阅读 · 0 评论 -
Hadoop的压测
#测试写能力 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -write -nrFiles 1 -fileSize 128MB#写速度hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -read -nrFiles 1原创 2021-11-04 16:35:36 · 1191 阅读 · 0 评论 -
Hadoop文件切分的源码
Hadoop文件的切分原则:一 按每个文件切分二 文件大小/分片大小《=1.1则划分为一个文件,否则切分为2个文件三 一个切片一个Maptask,一个Maptask代表一个并行度分片默认设置分片切分的核心源码public List<InputSplit> getSplits(JobContext job) throws IOException { StopWatch sw = new StopWatch().start(); long minSize = Math.max(原创 2021-11-01 18:32:23 · 752 阅读 · 0 评论 -
Hadoop的任务提交流程
Job提交流程的图一 判定job的状态判定job的状态二兼容新旧Api三判定集群环境四 提交核心源码生成切片信息和配置job.xml (配置),job.split(切片信息),jar包(本地模式不提交jar包)提交完毕 删除缓存信息JobStatus submitJobInternal(Job job, Cluster cluster) throws ClassNotFoundException, InterruptedException, IOException {原创 2021-11-01 16:32:42 · 518 阅读 · 0 评论 -
hadoop3的单机启动配置
#下载hadoop的tar包wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz#解压到指定目录tar -xzvf hadoop-3.2.1.tar.gz /export/server#修改配置文件 etc/hadoop/core-site.xml<configuration> <property> <na原创 2020-11-03 23:29:54 · 707 阅读 · 2 评论 -
Hadoop的写和读流程
写流程1.启动NN进程,提供分布式客户端2.客户端发送写请求,NN判断是否有权限,路径是否合法3.NN进程判断合法,返回允许上传文件4.客户端根据文件设置大小,请求NN发送DN列表5.NN进程根据文件副本数,根据机架感知,返回dn列表6.客户端会请求举例最近的DN节点,再由DN列表中的每个DN节点都请求举例最近的DN节点,建立数据传输通道7.通道建立完成,客户端将第一块的数据,封装为一个个packet,发送到通道的下一个节点 通道的每一个DN节点在收到packet后,进行校验,检验合法,罗原创 2021-09-03 23:29:24 · 302 阅读 · 0 评论 -
hadoop的hdfs使用小结
hdfs 文件目录如下1创建目录(bin目录下)hdfs dfs -mkdir -p /user/lin2查找文件系统目录hdfs dfs -ls /3将本地文件上传到文件目录bin/hdfs dfs -put README.txt /user/lin4统计单词bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /user/lin/ /user/kn5不能经常格式化原创 2020-07-27 17:14:28 · 172 阅读 · 0 评论 -
hadoop格式化失败提示lostconnection
可能是hadoop的日志文件没有清空, 在自己的Hadoop目录下的core-site.xml中配置的路径为 /export/servers/hadoop/tmp就应该在格式化前将此路径下的所有文件删除原创 2020-08-13 17:59:38 · 426 阅读 · 0 评论 -
谈谈Hadoop的yarn机制
Hadoop的MR引擎虽然已经过时了,但它另外两个组件hdfs和yarn非常经典,奠定了Hadoop作为底层存储和资源调度的无可替代的地位,下面谈一谈hadoop的yarn机制一 容器化的调度机制hadoop将一定的cpu,内存等资源定义为容器,当用户向hadoop集群提交任务,任务会首先将任务提交到Resoure Manager,注册一个Appkication,ResoureManager指定NodeManager创建App Master,由App Master直接将任务分配到容器里面,由容器执行原创 2021-09-05 16:59:44 · 202 阅读 · 0 评论 -
hadoop的Namenode和Datanode,以及SecondaryNameNode的几个重用
hadoop的namenode作为主节点主要负责着**NameNode的主要责任**一 维护日志文件和镜像文件hadoop的namenode不保存数据,但却保存日志文件editsfile和镜像文件fsimage(edits文件记录hadoop所有写操作,fsimage保存文件所在目录和文件idnode的序列化信息,又称为元数据)每次重启hadoop集群,都会重新读入fsimage保证信息为最新的数据二 接受客户端的访问客户端读取文件时,先访问namenode,namenode返回数据所在的数据原创 2021-09-01 22:18:23 · 454 阅读 · 0 评论