
Hadoop
学习Hadoop中的综合知识,博主还处于玩具阶段,业余研究。
ZhiYuanYe
.
展开
-
各种分布式文件系统简介及适用场景
常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。Google学术论文,这是众多分布式文件系统的起源Google File System(大规模分散文件系统) MapReduce (大规模分散FrameWork) BigTable原创 2016-12-27 15:35:10 · 24163 阅读 · 0 评论 -
hadoop伪分布式搭建(2.4.1)
1.准备Linux环境 1.虚拟机->虚拟网络编辑器->host-only(仅主机模式) ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows –> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -> 设置windows的IP原创 2016-12-28 14:17:31 · 2706 阅读 · 0 评论 -
HDFS工作原理(1.0)
NameNode 是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户/客户端的操作请求。 文件包括: fsimage:元数据镜像文件。并不是实时同步,而是存储某一时段NameNode内存元数据信息。hdfs-site.xml的dfs.name.dir属性。 edits:操作日志文件。 fstime:保存最近一次checkpoi原创 2016-12-29 16:39:47 · 3023 阅读 · 0 评论 -
Hadoop对RPC的支持
Remote Procedure Call RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议,通俗讲就是不同进程之间的方法调用。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式原创 2016-12-30 08:50:44 · 592 阅读 · 0 评论 -
Hadoop 面试,有它就够了
本文针对Hadoop1.0版本 Map Reduce & YARN 简介 Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 Map转载 2016-12-30 09:08:02 · 2601 阅读 · 0 评论 -
Hadoop的MapReduce执行过程
执行MapReduce的命令hadoop jar <jar在linux的路径> <main方法所在的类的全类名> <参数>例子:hadoop jar /root/wc1.jar cn.itcast.d3.hadoop.mr.WordCount hdfs://yzy:9000/animals/resultMR执行流程客户端提交一个mr的jar包给JobClient(提交方式:hadoop j原创 2016-12-30 14:48:58 · 2467 阅读 · 0 评论 -
Hadoop机架感知原理
背景 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块block存储,每个bloc转载 2017-01-03 13:28:51 · 5085 阅读 · 0 评论 -
Shuffle工作机制
Hadoop生态系统中,Shuffle是MapReduce的核心机制,它肩负了从Map到Reduce的底层过程。一个切片input split对应一个mapper,mapper将数据写入到环形缓冲区;这个环形缓冲区默认是100M,当它达到默认阀值80%的时候,它会将数据溢写(spill)到磁盘,在写磁盘过程中,map继续输出被写到缓冲区,如果在此期间缓冲区被填满,map会阻塞直到缓冲区被填满;原创 2017-01-04 08:55:00 · 4244 阅读 · 0 评论 -
Sqoop简介与实例
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。sqoop安装:安装在一台节点上就可以了。1.上传sqoop2.安装和配置原创 2017-01-04 17:46:02 · 2080 阅读 · 0 评论 -
HBase Shell编写
进入hbase命令行 ./hbase shell显示hbase中的表 list创建user表,包含info、data两个列族 create ‘user’, ‘info1’, ‘data1’ create ‘user’, {NAME => ‘info’, VERSIONS => ‘3’}向user表中插入信息,row key为rk0001,列族info中添加name列标示符,值为zhangsa原创 2017-01-05 11:30:21 · 694 阅读 · 0 评论