
Hadoop
531396533
这个作者很懒,什么都没留下…
展开
-
hadoop的体系结构
一、HDFS的体系机构 1:分布式文件系统: 管理网络中跨多台计算机存储的文件系统2: hdfs以流式数据访问模式来存储超大文件 一次写入,多次修改 2:数据块是存放在datanode节点上。 客户端open打开NameNode节点的连接,向DateNode节点写入数据,也可以读取数据。 3:NameNode和dataNode之间是通过心跳机制...原创 2015-08-29 14:47:17 · 162 阅读 · 0 评论 -
hadoop的hdfs的设计
一、hdfs的设计,hdfs以流式数据访问模式来存储超大文件1:hdfs的构建思路,一次写入,多次读取2:hdfs是为高数据吞吐量应用优化的,这可能会以提高时间延迟为代价3:由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。(大量的小文件)4:hdfs中的文件可能只有一个writer,而且写操作总是将数据添加在...原创 2015-09-22 15:20:20 · 113 阅读 · 0 评论 -
mapreduce应用开发
一:用于配置的apihadoop中的组件是通过hadoop自己的配置api来配置的。一个Configurate类的实例代表配置属性及其取值的一个集合。Configurate从资源配置文件中对取属性值。如果有个多个资源文件来定义一个配置,后来添加资源文件会覆盖之前定义的属性。管理配置文件,由于在开发hadoop应用时,经常需要在本地运行和集群运行之间进行切换。使hadoop配置文件包...原创 2015-09-29 11:44:26 · 131 阅读 · 0 评论 -
mapreduce的工作机制
了解mapreduce的工作机制,对编写mapreduce高级编程奠定基础。 一、mapreduce1的最顶层包含4个独立的实体客户端:提交mapreduce作业,jobtracker:协调作业的运行,tasktracker:运行作业划分后的任务,分布式文件系统:用来在其他实体间共享作业文件。 二、mapreduce1的过程1:作业的提交,有客户端提交任务给jobt...原创 2015-10-07 14:36:32 · 252 阅读 · 0 评论 -
mapreduce的类型与格式
1:默认的mapreduce作业hadoop在不指定mapper和reducer就运行mapreduce,只设置输入路径和输出路径,可以使用默认设置运行mapreduce作业默认的输入格式是TextInputFormat默认的mapper是Mapper类默认的partitioner是hashpartitioner默认的reducer是Reducer默认情况下,只有一个r...原创 2015-10-07 17:31:29 · 214 阅读 · 0 评论 -
Hadoop Yarn
一、Yarn产生 : 作为Hadoop的一个子项目,Yarn是一个通用的用于运行分布式应用的资源管理器。 1、Mapreduce的缺陷和问题:由于jobtracker会保存信息在内存中,使用的粗粒度的锁,所以可扩展有瓶颈 2、Yarn要保持现有的mapduce的向后兼容性 3、Yarn : 资源调度器基本思想: 将jobTracker两个主要的功能分离成单独的...原创 2016-02-13 21:42:56 · 104 阅读 · 0 评论 -
hadoop常用命令
hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本地...原创 2016-03-03 19:33:57 · 84 阅读 · 0 评论 -
java (mapreduce)
一、java mapreduce实现 数据块1950,01950,221950,-111949,1111949,78例如:(1950,0),(1950,22),(1950,-11),(1949,111),(1949,78) 求每年的最大值 伪代码map函数public void map(LongWritable key,Text value,Co...原创 2016-04-01 16:54:15 · 104 阅读 · 0 评论