
Hadoop/Mapreduce
hh66__66hh
这个作者很懒,什么都没留下…
展开
-
Hadoop的I/O操作——SequenceFile
Hadoop的I/O操作——SequenceFile1. 基于文件的数据结构Hadoop的HDFS和MapReduce自框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低,还浪费内存资源(每个小文件占据一个block,每个block的元数据都要存储在namenode里)。为了解决这个问题,通常采用容器来对一些小文件进行存储,Hadoop提供了2种类型的容器:SequenceFile和...原创 2018-10-12 20:13:46 · 559 阅读 · 0 评论 -
Hadoop的I/O操作——数据压缩
Hadoop的I/O操作——数据压缩在处理大量数据的时候,文件压缩有两大好处:(1)减少存储文件所需要的磁盘空间;(2)加速数据在网络和磁盘上的传输。因此,对于任何大容量的分布式存储系统而言,文件压缩是必须的。比较常见压缩格式及其特点如下。其中,gzip对时间/空间的平衡做的最好;bzip2的压缩效率比gzip高,但比gzip慢;LZO的速度最快,但压缩效果比较差。1. Hadoop...原创 2018-10-13 19:40:40 · 310 阅读 · 0 评论 -
Hadoop的I/O操作——序列化(一)
Hadoop的I/O操作——序列化1. WritableComparable和WritableComparator对于MapReduce来说,类型的比较很重要,因为中间有个基于键的排序阶段。Java里提供了Comparable和Comparator两种接口,Hadoop中也提供了对应的接口和类,并且是继承自Java提供的接口的,下面就分别来进行介绍。1.1 Comparable在Java里...原创 2018-10-15 19:26:10 · 520 阅读 · 0 评论 -
Hadoop的I/O操作——序列化(二)
Hadoop的I/O操作——序列化(二)1. Writable数据类型Writable类对除了char类型之外(char类型可以存储在IntWritable里)的所有Java基本类型提供了封装。1.1 TextText是针对UTF-8编码的字符序列的Writable实现,它可以看成是对java.lang.String的包装。Text有如下特点:(1)使用整型来存储字符串编码中所需的字...原创 2018-10-19 19:38:05 · 368 阅读 · 0 评论 -
Hadoop集群——(一)集群搭建步骤
Hadoop集群——(一)集群搭建步骤现在有3台机,现在就利用这3台主机来搭建一个Hadoop集群。它们的IP地址、在Hadoop集群中对应的角色及主机名如下: IP 角色 主机名172.17.0.2 -- master, namenode, jobstracker -- 540d1f9fc209(主机名)172.17.0.3 -- slave, dataNode, task...原创 2018-11-09 15:51:43 · 220 阅读 · 0 评论 -
Hadoop——错误Name node is in safe mode
Hadoop——错误Name node is in safe mode今天在重启hadoop服务的时候,想删除hdfs中的一个目录/test3,结果遇到了如下的错误,提示无法删除该目录:root@0d0fc89cc479:/hadoop/hadoop-2.9.1/test/Class_Design# hadoop fs -rm -r /test3/18/11/07 06:33:59 WARN...原创 2018-11-07 15:03:32 · 440 阅读 · 0 评论 -
Hadoop集群——(二)作业编写、打包、启动、查看
Hadoop集群——(二)作业编写、打包、运行、查看Hadoop集群搭建好后,就可以将MapReduce作业提交到集群上运行了。下面以我自己编写的一个WordCount单词计数的程序为例,介绍一下如何在集群上进行作业的提交和运行。1. 程序编写我写了一个简单的WordCount.java文件,它实现了一个WordCount类,用于对文件中的单词进行计数,代码如下:import java.i...原创 2018-11-10 16:22:45 · 764 阅读 · 0 评论