
Hadoop
innerpeace-yt
这个作者很懒,什么都没留下…
展开
-
虚拟机中搭建伪分布式Hadoop,步骤详解
本人安装的版本试Hadoop2.4.1版本。首先上传hadoop的安装包到服务器上去/home/hadoop/1.解压Hadoop到指定的文件下,我解压的目录在主目录下新建的app文件内$ tar -zxvf hadoop2.4.1.tar.gz -C app/hadoop2.x的配置文件$HADOOP_HOME/etc/hadoop 伪分布式需要修改5个配置文$ tar -zxvf hadoop...原创 2018-05-18 10:08:16 · 2217 阅读 · 0 评论 -
hadoop datanode节点超时时间设置
datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为: timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.in...原创 2018-06-28 22:36:13 · 198 阅读 · 0 评论 -
机架感知配置
本文是作者参考别处信息所得,分享一下,欢迎大佬们一起交流问题!Hadoop机架感知1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它...原创 2018-06-28 22:35:10 · 523 阅读 · 0 评论 -
Hadoop2.4.1 & Zookeeper集群搭建过程,配置流程详解
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译1.修改Linux主机名2.修改IP3.修改主机名和...原创 2018-06-28 22:26:39 · 287 阅读 · 0 评论 -
zookeeper应用场景
应用场景1-统一命名服务»分布式应用中,通常需要有一套完整的命名规则,既能够产生唯一的名称又便于人识别和记住,通常情况下用树形的名称结构是一个理想的选择,树形的名称结构是一个有层次的目录结构,既对人友好又不会重复。»Name Service 是 Zookeeper 内置的功能,只要调用 Zookeeper 的 API 就能实现应用场景2-配置管理»配置的管理在分布式应用环境中很常见,例如同一个应用...原创 2018-06-28 22:13:43 · 147 阅读 · 0 评论 -
Java操作hdfs的文件增删改查
package cn.itcast.hadoop.hdfs;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import org.apac...原创 2018-05-24 22:39:44 · 1697 阅读 · 0 评论 -
NameNode数据管理机制
NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求文件包括:①fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。②edits:操作日志文件。③fstime:保存最近一次checkpoint的时间以上这些文件是保存在linux的文件系统中.NameNode的工作特点:1、客户端上传文件...原创 2018-05-28 21:45:12 · 737 阅读 · 0 评论 -
HDFS读写文件过程分析
HDFS源码分析 FileSystem.get --> 通过反射实例化了一个DistributedFileSystem --> new DFSCilent()把他作为自己的成员变量 在DFSClient构造方法里面,调用了createNamenode,使用了RPC机制,得到了一个NameNode的代理对象,就可以和NameNode进行通信了 FileSystem --> Dist...原创 2018-05-28 21:43:58 · 341 阅读 · 0 评论 -
MapReduce的执行流程
1.执行MR的命令: hadoop jar <jar在linux的路径> <main方法所在的类的全类名> <参数> 例子: hadoop jar /root/wc1.jar cn.itcast.d3.hadoop.mr.WordCount hdfs://itcast:9000/words /out2MR过程各个角色的作用:jobClient:提交作业。是用户作...原创 2018-06-04 16:09:12 · 452 阅读 · 0 评论 -
MapReduce程序的几种提交运行模式
本地模型运行1、在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdata) 2、在linux的eclipse里面直...原创 2018-06-04 15:20:55 · 318 阅读 · 0 评论 -
Hadoop中fs的shell命令实例
help [cmd] //显示命令的帮助信息ls(r) <path> //显示当前目录下所有文件du(s) <path> //显示目录中所有文件大小count[-q] <path> //显示目录中文件数量mv <src> <dst> //移动多个文件到目标目录cp <src> <dst> //复制多个文原创 2018-06-03 22:21:43 · 611 阅读 · 0 评论 -
MapReduce介绍及wordcount实例编程操作
MapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。执行步骤: 1. map任务处理1.1 读取输入文件内容,解析成key、value对。对输入...原创 2018-06-02 20:17:28 · 595 阅读 · 0 评论 -
常见分布式文件系统
常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。Google学术论文,这是众多分布式文件系统的起源==================================Google File System(大规模分散文件系统)Map...原创 2018-05-20 14:02:00 · 282 阅读 · 0 评论 -
Hadoop配置ssh无密码登陆
搭建在伪分布集群上的无密码登陆。以便在访问本机dfs、mapreduc、yarn过程中省区输入密码的过程。1、生成ssh免登陆密钥进入home目录cd ~/.sshssh-keygen -t rsa (四个回车)2、执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)3、创建文件 authorized_keys,用于存放密钥4、修改 authorized_keys文件...原创 2018-05-20 14:00:23 · 1460 阅读 · 0 评论 -
HDFS冗余数据块的自动删除
HDFS冗余数据块的自动删除在日常维护hadoop集群的过程中发现这样一种情况: 某个节点由于网络故障或者DataNode进程死亡,被NameNode判定为死亡, HDFS马上自动开始数据块的容错拷贝; 当该节点重新添加到集群中时,由于该节点上的数据其实并没有损坏, 所以造成了HDFS上某些block的备份数超过了设定的备份数。 通过观察发现,这些多余的数据块经过很长的一段时间才会被完全删除掉, ...原创 2018-06-28 22:37:06 · 531 阅读 · 0 评论