hadoop
JNWsong
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop+wsl 10.255.255.254,BlockMissingException: Could not obtain block: 踩坑
我在我的wsl中启动一个hadoop用java客户端连接hadoop,读取某个文件的内容异常,但是读取文件名,文件路径好用。原创 2024-11-18 14:59:36 · 1610 阅读 · 0 评论 -
分布式程序中YARN中的角色
和。原创 2023-09-21 15:35:36 · 557 阅读 · 0 评论 -
hadoop多路输出器,不要忘记close()
package com.ws.userprofile;import com.google.gson.Gson;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;.原创 2021-01-14 13:07:17 · 227 阅读 · 0 评论 -
hadoop和hbase版本冲突
原创 2021-01-10 22:47:58 · 428 阅读 · 0 评论 -
设置MapReduce切片大小
FileInputFormat.setMinInputSplitSize(job,55*1024*1024);单位b,为这是55M原创 2021-01-10 22:12:58 · 770 阅读 · 0 评论 -
mapReduce分布式运算程序数据处理内部全流程详解
原创 2020-12-21 22:14:56 · 336 阅读 · 0 评论 -
map流程
LineRecordReader,Mapper,ContextmapTask---->run-------->setup--------->while(context.nextKeyValue|LineRecordReader得到map方法需要的的key和value)-------->map-------->cleanup原创 2020-12-21 20:21:46 · 700 阅读 · 0 评论 -
重点梳理
1、以上两个图说明,在mr程序执行的时候,其实分别调用了MapTask的run方法和ReduceTask的run方法这个方法都要一个共同的特点,就是,在run执行前,也就是map方法/reduce方法执行前,要先调用setup方法。在map/reduce方法执行后,要调用cleanup方法这两个方法是以后我们要注意的点。setup可以加载资源文件,cleanup可以做收尾工作2、在map方法之前,会将文件的切片信息传入context对象中,我们在map方法就...原创 2020-12-21 00:23:30 · 135 阅读 · 1 评论 -
yarn调度资源运行mapReduce的流程
甲方(客户端)对老板(resoucemanager)说,我要做个项目(job),老板任命了一个项目经理(mrAppMaster),甲方向项目经理提需求,项目经理收到需求后,找老板要人干活,老板给了四个写代码的人(yanChild),干完活之后,项目经理任命解除,写代码的人收回去。1、客户端:resourcemanager,我要一些资源运行mr程序(1.5G , 1 core)2、resourcemanager,给你2G,1core(单位是1.,0.5就进上去了),dream1(nodemanag..原创 2020-12-19 22:11:18 · 290 阅读 · 1 评论 -
yarn框架安装启动
修改yarn-site.xmlvi yarn-site.xml<configuration><property>yarn.resourcemanager.hostname</property><value>dream1</value><property>yarn.nodemanager.aux-services</property><value>mapreduce_shuffle</.原创 2020-12-19 18:12:42 · 356 阅读 · 1 评论 -
HDFS,Checkpoint的机制
一、左上角:这里是namenode下元数据的目录形式1、一系列的edits_000000000**-edits_000000000** 这是历史的操作日志2、fsimage_00000000000000000 元数据的持久化镜像文件。3、fsimage_00000000000000000.md5 元数据的md5值4、edits_inprogress 这是正在生成的日志文件,达到一定的大小后。就会生成一个历史的日志文件5、checkpoint的时候会 edits_inprogres...原创 2020-12-15 20:03:04 · 418 阅读 · 0 评论 -
HDFS读数据的流程
1、客户端:namenode,我要读取/test/a.txt,请确认!2、namenode:好的,有这个文件可以读取,这个文件的元数据我发给你了,你自己去找吧(元数据:文件有两个块,blk-17728-1(dream1),blk-17728-2(dream1))(我去看看有没有数据)3、客户端:我去找dream1读了,draem1我要读取 blk-17728-14、datanode(dream1):有这个文件,传输连接已经建立,开始传输5、客户端:好的第一个块已经读完了,没你的事了,我再..原创 2020-12-15 12:18:02 · 152 阅读 · 0 评论 -
HDFS写数据的流程
1、客户端:namenode 我要写数据! 我写的数据名字叫/test/a.txt 我有三个副本,按照128M切块2、namenode:我查过了,你这个目录存在 可以写入(你这个文件都没有写个P)3、客户端: 我要写第一个文件了4、namenode:好的,给你三个机器,dream1,dream2,dream3 往这里写吧,而且blockId=7740,你们写块的时候 都要带上blockId=7740的标识5、客户端:dream1,dream2,dream3,我到drea...原创 2020-12-14 19:40:11 · 140 阅读 · 0 评论 -
分布式wordcount Reduce阶段
package com.ws.wordcount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.util.HashMap;public class WordCountReduce {.原创 2020-12-14 09:02:44 · 171 阅读 · 0 评论 -
linux 运行wordcount.jar
hdplib=`find /opt/aps/hadoop-2.8.5/ -name "*.jar" | xargs | sed 's/ /:/g'`定义变量,拼接classPathjava -cp task.jar:${hdplib} com.ws.wordcount.WordCountMap arg0arg1arg2[root@dream4 testhdp]# find /opt/apps/hadoop-2.8.5/ -name "*.jar"/opt/apps/hadoo...原创 2020-12-13 21:02:55 · 283 阅读 · 0 评论 -
分布式wordcount Map阶段
package com.ws;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import java.io.*;publ.原创 2020-12-13 18:59:54 · 183 阅读 · 0 评论 -
分布式wordcount思路
首先有三个文件 a.txt ,b.txt,c.txt,放在hdfs上其中maptask0 读取a.txt的 0-100Mmaptask1读取a.txt 100M-200Mmaptask2 读取b.txt 的0-100Mmaptask3 读取c.txt的0-100Mmaptask4 读取c.txt的100M-60M每个maptask分别计算自己的wordcount每处理一个单词,先用这个单词的hashcode模除以3 取余数,因为相同单词的hashcode肯定是一样的,这样..原创 2020-12-12 10:38:02 · 379 阅读 · 0 评论 -
Hadoop Java 常用Api
package com.ws;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.junit.Before;import org.junit.Test;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.Inp.原创 2020-12-11 21:21:53 · 872 阅读 · 0 评论 -
HADOOP安装部署说明
安装JAVA配置JAVA环境变量上传hadoop解压hadooptar -zxf hadoop-2.8.5.tar.gz -C /opt/apps配置hadoop环境变量vi /etc/profileexport HADOOP_HOME=/opt/apps/hadoop-2.8.5export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin修改配置文件vi $HADOOP_HOME/etc/h原创 2020-12-09 23:20:12 · 177 阅读 · 0 评论 -
hadoop配置文件
vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh(配置java环境变量)export JAVA_HOME=/opt/apps/jdk1.8.0_65/vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml<configuration><property><name>dfs.namenode.name.dir</name><value>/opt/hdpdata/name&l原创 2020-12-09 22:29:53 · 202 阅读 · 0 评论
分享