
Hadoop
zz657114506
这个作者很懒,什么都没留下…
展开
-
Hadoop(04) NameNode、DataNode
NameNode工作特点Namenode始终在内存中保存metedata,用于处理“读请求”。到有“写请求”到来时,namenode会首先写editlog到磁盘,即向edits文件中写日志,成功返回后,才会修改内存,并且向客户端返回。Hadoop会维护一个fsimage文件,也就是namenode中metedata的镜像,但是fsimage不会随时与namenode内存中的metedata保持原创 2016-09-17 21:38:29 · 328 阅读 · 0 评论 -
Hadoop2.7.3-HA 集群搭建(传智播客)
前期准备1.修改Linux主机名 2.修改IP 3.修改主机名和IP的映射关系 /etc/hosts 4.关闭防火墙 5.ssh免登陆 6.安装JDK,配置环境变量等集群规划主机名 IP 安装的软件 运行的进程mini01 192.168.175.141 jdk、hadoop NameNod原创 2017-01-07 18:43:25 · 2552 阅读 · 1 评论 -
Hadoop(02) HDFS
HDFS架构图HDFS特性(1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M(2)HDFS文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data(3)目原创 2016-09-14 16:19:45 · 481 阅读 · 0 评论 -
Hadoop(01) 伪分布式搭建
Linux 上环境配置1.1 修改主机名#Ubuntu-16.04(vi /ect/hostname)HOSTNAME=master#CentOS6.5(vi /etc/sysconfig/network)NETWORKING=yesHOSTNAME=itcast011.2 主机名和IP的映射关系(vi /etc/hosts)#Ubuntu CentOS 一样192.168.1.110 m原创 2016-09-08 01:42:00 · 433 阅读 · 0 评论 -
Hadoop(05) HDFS Java 接口
FileSystem API 简单操作文件package hadoop.hdfs;import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.InputStream;import jav原创 2016-09-15 21:23:52 · 497 阅读 · 0 评论 -
Hadoop(17) MR 决定Mapper数量因素
源码分析// 提交任务到集群, 并等待结束job.waitForCompletion(true);进入 org.apache.hadoop.mapreduce.Job下的waitForCompletion()————————————————————————————————————————————————————————————> submit();Job中的waitForCompletion内原创 2016-10-03 19:49:57 · 1316 阅读 · 0 评论 -
Hadoop(07) MapReduce原理
YARN基本流程Job submission(作业提交) Client通过RPC从ResourceManager中获取一个Application ID 检查作业输出配置,计算输入分片 拷贝作业资源(job jar、配置文件、分片信息)到HDFS,以便后面任务的执行Job initialization(作业初始化) ResourceManager将作业递交给Scheduler(有很多调度算法,原创 2016-09-24 16:49:07 · 386 阅读 · 0 评论 -
Hadoop(14) MR Combiner
众所周知,Hadoop框架使用Mapper将数据处理成一个个的key/value键值对,在网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。这其中假如我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输(网络带宽严重被占降低程序效率),所有数据都经过reduce处理,造成Reducer的巨大压力,从而大大降低程序的性能。 为了解决上原创 2016-10-02 22:15:18 · 2010 阅读 · 0 评论 -
Hadoop(12) MR Partitioner
回顾Map阶段五大步骤 其中,step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对key/value,是需要送到Reducer去合并的,合并的时候,有相同key的键/值对会送到同一个Reducer节点中进行归并。哪个key到哪个Reducer的分配过程,是由Partitioner规定的。Hadoop内置Partitioner MapReduce的使用者通常原创 2016-10-02 13:40:57 · 318 阅读 · 0 评论 -
Hadoop(13) MR 排序
在上一文章中的统计手机用户流量的基础之上再进行排序。 若要进行排序则须implements WritableComparable。 map和reduce阶段进行排序时,比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序,需要把k2和v2组装成新的类,作为k2,才能参与比较。 分组时也是按照k2进行比较的。示例代码:package com.zz.hadoo原创 2016-10-02 17:27:11 · 457 阅读 · 0 评论 -
Hadoop(08) MR入门程序
MR执行步骤map任务处理 1.1 读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。 1.2 写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。 1.3 对输出的key、value进行分区。 1.4 对不同分区的数据,按照key进行排序、分组。相同key的value放到一个集合中。原创 2016-09-25 02:14:03 · 456 阅读 · 0 评论 -
Hadoop(10) 序列化--Writable 类
java基本类型的Writable 除char类型以外,所有的java类型都有对应的Writable类,并且通过get()和set()读取或存储。 java基本类型 Writable 序列化大小(字节) boolean BooleanWritable 1 byte ByteWritable 1 short ShortWritable 2 i原创 2016-09-25 22:47:22 · 779 阅读 · 0 评论 -
Hadoop(11) 自定义Writable
自定义Writable原创 2016-09-25 22:51:41 · 324 阅读 · 0 评论 -
Hadoop(09) 序列化
序列化概念序列化(Serialization)是指把结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化(Deserialization)是序列化的逆过程,即把字节流转回结构化对象。hadoop 不使用jdk自带序列化机制 在java程序中若要序列化某个类,让该类implements java.io.Serializable,我们不用自己去序列化,JVM会帮我们原创 2016-09-25 17:34:32 · 390 阅读 · 0 评论 -
Hadoop(03) 启动HDFS异常
1 . NameNode启动报错java.io.IOException: There appears to be a gap in the edit log. We expected txid 1, but got txid 32.原因:namenode元数据被破坏,需要修复解决:执行 hadoop namenode -recover 恢复namenode一路选择c,一般就OK了2 . Dat原创 2016-09-15 20:03:18 · 921 阅读 · 0 评论 -
Hadoop(06) RPC
RPCRPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调原创 2016-09-17 23:20:16 · 366 阅读 · 0 评论 -
Hadoop(16) MR 倒排索引
倒排索引(Inverted Index):倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。 比如有文档 a.txt hello tom hello jerry hello tom b.txt hello jerry原创 2016-10-03 16:39:38 · 493 阅读 · 0 评论