
Hadoop入门
NobiGo
这个作者很懒,什么都没留下…
展开
-
解决 Unable to load native-hadoop library for your platform
安装hadoop启动之后总有警告:Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 原因:Apache提供的hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要自己编译64位的版本。1、首先找到对应自己hadoop版本的64位的li原创 2016-10-02 21:42:57 · 893 阅读 · 3 评论 -
SecondaryNamenode的作用详解
作用在Hadoop中,有一些命名不好的模块,Secondary NameNode是其中之一。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不是。很多Hadoop的初学者都很疑惑,Secondary NameNode究竟是做什么的,而且它为什么会出现在HDFS中。因此,在这篇文章中,我想要解释下Secondary NameNode在HDFS中所扮演的角色。从它的名字来看,你可能转载 2017-04-22 10:44:51 · 12635 阅读 · 0 评论 -
Hadoop浅解海量数据处理算法——Bloom Filter实现
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。一. 实例为了说明BloomFilter存在的重要意义,举一个实例:假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道蜘蛛已经访问过那些原创 2017-05-11 16:30:24 · 748 阅读 · 0 评论 -
远程windows用eclipse运行wordcount程序
环境:集群安装在虚拟机的linux的Centos6.5上 在windows上的eclipse运行eclipse过程记录搭建eclipse的hadoop开发环境下载hadoop对应版本的hadoop-eclipse-plugin-2.6.0.jar将相应的插件包放在Eclipse的插件目录中:D:\eclipse\plugins打开eclipse进入进入windows-preferences,原创 2017-02-26 23:26:01 · 704 阅读 · 2 评论 -
Hadoop中WordCount程序详解
Mappackage com.test.dx;/*如何给eclipse的main函数传递参数 * run as--> run configures -->Arguments */public class WordCount extends Configured implements Tool { static int mapnum = 0; public static int re原创 2017-02-26 23:25:11 · 536 阅读 · 0 评论 -
Hadoop通信协议——RPC原理详解
RPC 功能目标RPC 的主要功能目标是让构建分布式计算(应用)更容易,在提供强大的远程调用能力时不损失本地调用的语义简洁性。 为实现该目标,RPC 框架需提供一种透明调用机制让使用者不必显式的区分本地调用和远程调用。 下面我们将具体细化 stub 结构的实现。 RPC 调用分类RPC 调用分以下两种:同步调用客户方等待调用执行完成并返回结果。异步调用客户方调用后不用等待执行结果返回,但依然可以原创 2017-02-26 23:24:41 · 1211 阅读 · 0 评论 -
Hadoop浅解海量数据处理算法——Bloom Filter
简介Bloom-Filter,即布隆过滤器。用于检索一个元素是否存在于一个聚合中。Bloom-Fileter是一种空间效率极高的随机数据结构,它利用位数组很简洁的表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom-Filter有可能出现错误判断,但不会漏掉判断(经过Bloom-Filter判断不存在集合中的,那肯定不存在;但是判断元素存在集合中,原创 2017-02-26 23:22:33 · 578 阅读 · 0 评论 -
Hadoop浅解SnapShots
快照HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以将失效的集群回滚到之前的一个正常的时间点上。总览HDFS 快照是一种只读的特定时间点的文件系统的复制,快照可以对目录或者整个文件系统进行。作用防止用户的错误操作:管理员可以通过以滚动的方式周期性设置一个只读的快照,这样就可以在文件系统上有若干份只读快照。如果用户意外地删除了一个文件,就可以使用包含该文件的最新只读快照来进行回复。备份:管原创 2017-02-26 23:20:12 · 830 阅读 · 0 评论 -
Hadoop浅解partitioner
Partitioner分区类的作用是什么?在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中;按照性别划分的话,需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么,如果要得到多个文件,意味着有同样数量的Reducer任务在运行。Reducer任务的数据来自于Mapper任务,也就原创 2017-02-26 23:18:07 · 301 阅读 · 0 评论 -
Hadoop浅解HDFS租约处理
问题提出在HDFS中可能同时有多个客户端在同一时刻写文件,如果不进行控制的话,有可能多个客户端会并发的写一个文件,所以需要进行控制,一般的想法是用一个互斥锁,在某一时刻只有一个客户端进行写操作,但是在分布式系统中有如下问题:每次写文件前,客户端需要向master获取锁情况,他们之间的网络通讯太频繁。当某个客户端获取锁之后和master失去联系,这个锁一直被该客户端占据,master和其他客户端不原创 2017-02-26 23:17:42 · 2032 阅读 · 0 评论 -
Hadoop浅解Centralized Cache Management(集中式缓存管理)
HDFS集中式缓存管理概观HDFS的集中化缓存管理是一个明确的缓存机制,它可以将用户指定的HDFS路径进行缓存。NameNode会和保存着所需快数据的所有DataNode进行通信,并指导他们把块数据缓存在off-heap缓存中。HDFS上的集中式缓存管理具有明显的优势: 1. 明确的锁定可以阻止频繁使用的数据被从内存中清除。当数据集的大小超过了主内存大小(这种情况对于许多HDFS负载都是司空见惯的翻译 2017-02-26 23:16:58 · 669 阅读 · 0 评论 -
Hadoop浅解Combiner
这篇博客之前好久写的,现在完善一下:一、Combiner的出现背景我们可以发现在Hadoop运行Wordcount的过程中会出现如下记录:Combine input records=0Combine output records=0其中有两个计数器: Combine output records 和 Combine input records ,他们的计数都是0,这是因为我们在...原创 2017-02-26 23:15:08 · 655 阅读 · 0 评论 -
hadoop启动脚本分析:start-all.sh
为了加深对Hadoop的理解,慢慢前进:----------------------------------------------------------调用顺序:1.先调用(hadoop)\libexec\hadoop-config.sh HADOOP_CONF=... //--config参数2."${HADOOP_HDFS_HOME}"/sbin/start-df原创 2016-11-24 20:27:06 · 3679 阅读 · 0 评论 -
Hadoop学习笔记 Java接口
从 hadoop URL 读取数据1. 自定义编写URLCat方法:import java.io.IOException;import java.io.InputStream;import java.net.MalformedURLException;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactor原创 2016-10-23 22:02:31 · 419 阅读 · 0 评论 -
Hadoop学习笔记 压缩
1. 简介文件压缩有两大好处:减少存储文件所需要的磁盘空间。并加速数据在网络和磁盘上的传输。“是否可切分”:表示对应的压缩算法是否支持切分,也就是说说,是否可以搜索数据流的任意位置并一步往下读取数据。2. codeccodec实现了一种压缩-解压缩的算法。 在Hadoop中,一个对CompressionCodec接口的实现代表一个codec。 LZO代码库连接:http://downloa原创 2016-10-29 10:01:36 · 342 阅读 · 0 评论 -
hadoop生态系统的详细介绍
前提日常喜欢看一些微信分享的好文,总结下来,可以作为过滤器吧(节约更多人的时间!),在这里引用的是别人的文章!对原文的作者表示感谢!确实写的很好!hadoop生态系统的详细介绍简介Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。今天我们来详细介绍下hadoop的生态系统。Hadoop生态系原创 2017-05-16 23:31:02 · 17019 阅读 · 0 评论