
Hadoop
浪灬迹-红尘少年
天地本无主,男儿当自强
展开
-
搭建Hadoop2.7.3伪分布式
hadoop伪分布搭建流程准备工作:1、jdk-8u162-linux-x64.tar2、hadoop.2.7.3.tar.gz1、上传压缩包到指定目录下本人是CentOS-6.8-x86_64;搭建Hadoop建议创建一个新的用户;本人把hadoop搭建在hyxy用户下;压缩包上传到hyxy的新建目录soft下,此次操作都在hyxy用户下进行;2、解压相关软件...原创 2019-03-22 17:01:47 · 225 阅读 · 0 评论 -
Hadoop的Mapper类源码解析
1.来自[org.apache.hadoop.mapreduce.Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>] 2.java Doc说明: Map将输入数据<k,v>转换成中间数据集<k,v> map将为输入的数据的每一个记录(行)执行map函数,MR通过inputfomart生成input...原创 2019-05-28 16:03:07 · 270 阅读 · 0 评论 -
Hadoop的eclipse提交集群运行
1.集群提交修改项 a.确保JobAPP提交至集群 解决方案:修改mapred-site.xml mapreduce.framework.name = yarn b.报重新连接:0.0.0.0/0.0.0.0:8032 解决方案: 修改yarn-site.xml文件 ...原创 2019-05-28 15:55:07 · 180 阅读 · 0 评论 -
HDFS相关概念及体系结构
1.hdfs设计原理 负载均衡、考虑分布式计算 -->block机制 2.block默认大小为128m【hadoop2.0版本以上】 原因:默认传输效率100M/s 寻址时间占传输时间的1% 寻址时间为10ms block默认设置参数: <property> <name>dfs.blo...原创 2019-05-23 16:02:36 · 305 阅读 · 0 评论 -
hdfs默认数据存放路径
1.{hadoop.tmp.dir}:/tmp/hadoop-${user.name} ,在core-site.xml 修改路径到当前用户目录下: 【/home/hyxy/tmp/hadoop】 <property> <name>hadoop.tmp.dir</name>...原创 2019-05-23 15:58:02 · 5305 阅读 · 1 评论 -
Hadoop完全分布式搭建
1.克隆两个节点 2.修改静态IP 3.修改主机名:【master(主),slave1(从),slave2(从)】 4.修改IP和主机名的映射:【/etc/hosts】 5.SSH无密登录: 6.安装JDK(略) 7.安装hadoop(略) 8.配置环境变量(略) 9.修改hadoop配置文件 a.core-sit...原创 2019-05-23 15:52:10 · 281 阅读 · 0 评论 -
克隆虚拟机最最标准版
1.关闭虚拟机-->选项【虚拟机】-->【管理】-->【克隆】 2.【下一步】-->【下一步】-->【选项:创建完整克隆】 3.指向本地虚拟机目录{D:\VMware-system\Centos-6.8-64-02} 4.制定虚拟机名称为:Centos-6.8-64-02 5.修改克隆后的虚拟机静态IP a.查找eth1...原创 2019-05-23 15:43:04 · 153 阅读 · 0 评论 -
linux静态IP设置
1.VMware-->编辑-->虚拟网络编辑器-->还原默认配置-->重置网络设置 2.VMware-->编辑-->虚拟网络编辑器-->选中VM8-->关掉DHCP 3.查看网络相关配置: 子网:192.168.14.0 192.168.3.0 子网掩码:255.255.255.0 ...原创 2019-05-23 15:40:24 · 171 阅读 · 0 评论 -
通过FileSystem API对集群操作(第二回)
通过java.net.URL类访问写入HDFS数据---------------------------------------------------------------- /** * 通过java.net.URL类访问写入HDFS数据 * 结论:通过URL的方式不能实现对HDFS的写操作,抛java.net.UnknownServiceException: p...原创 2019-05-24 16:42:24 · 235 阅读 · 0 评论 -
通过FileSystem API对集群操作(第一回)
通过FileSystem API访问BlockLocations块位置信息----------------------------------------------------------------------------------------------- /** * 通过FileSystem API访问BlockLocations块位置信息 * @throw...原创 2019-05-24 16:41:06 · 295 阅读 · 0 评论 -
Hadoop之词频统计
MR编程思路-------------------------------- 0.词频统计:n个文件,每个文件有m行数据,每行数据由空格分割 如text1.txt hello world how are you? ni hao hello tom 如text2.txt zhang ...原创 2019-05-24 16:31:12 · 1673 阅读 · 0 评论 -
hdfs搭建IDE
hdfs API-------------------- 1.HDFS:hadoop分布式文件系统--> 两种表现形式:1.hadoop fs shell命令:【hadoop fs -commond】 2.java API方式访问: 【DistributedFileSystem】对应的HDFS 2.搭建IDE ...原创 2019-05-24 16:26:32 · 143 阅读 · 0 评论 -
hdfs管理员操作dfsadmin
hdfs管理员操作dfsadmin------------------------------- 1.-report:返回集群的状态信息 $>hdfs dfsadmin -report 2.-metasave:默认存放到{HADOOP_LOG_DIR}路径下,包含datanode和块的信息 $>hdfs dfsadmin -metasave...原创 2019-05-24 16:16:46 · 1371 阅读 · 0 评论 -
NameNode剖析
分析namenode开启过程---------------------------- 1.默认目录下{hadoop.tmp.dir/dfs/name/current},fsimage文件存储为两个,加载fsimage_txid最后一个。(txid=39) 2.加载edits_txid操作文件至内存中。元数据已全部加载至内存上。(txid=40-41) 3.保存checkp...原创 2019-05-24 16:08:44 · 160 阅读 · 0 评论 -
Hadoop元数据剖析
元数据------------------------- 1.查看fsimage文件 $>hdfs oiv -i fsimage_0000000000000000022 -o ~/fs22.xml -p XML 【 <?xml version="1.0"?> <fsimage> &...原创 2019-05-24 16:07:09 · 227 阅读 · 0 评论 -
Hadoop的InputFormat抽象类源码解析
InputFormat抽象类源码解析-------------------------- 0.做两件事:【进行逻辑切分InputSplit;创建RecordReader】 1.抽象方法:List<InputSplit> getSplits(JobContext context) 说明:逻辑地分割作业的输入文件集-->InputSplit。然后将每个...原创 2019-05-28 16:24:27 · 261 阅读 · 0 评论