
Hadoop
dongmeima_coder
这个作者很懒,什么都没留下…
展开
-
用通俗易懂的话说下hadoop是什么,能做什么
hadoop是什么? (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任转载 2016-10-18 16:38:33 · 363 阅读 · 0 评论 -
Hadoop集群完全分布式搭建教程-CentOS
版权声明:本文为博主原创文章,欢迎转载,请注明地址。 目录(?)[-] 说明克隆虚拟机系统配置调整建立集群之间的SSH 无密码登录配置集群完全分布式环境执行分布式实例 本篇在前一篇《Hadoop单机模式和伪分布式搭建教程》的基础上完成完全分布式的搭建,所以本篇的前提是已经按照之前的教程完成了伪分布式的安装。注意截图中的slaver应该是slave,哈哈,搭建转载 2016-10-18 16:59:53 · 423 阅读 · 0 评论 -
Hadoop单机模式和伪分布式搭建教程CentOS
版权声明:本文为博主原创文章,欢迎转载,请注明地址。 目录(?)[-] 准备工作 1 软件准备2 创建hadoop用户3 配置SSH无密码访问4 安装JAVA环境 单机模式安装伪分布式安装 首先说明一下:采用的是新装的CentOS的环境,利用xshell进行远程操作来搭建Hadoop单机模式,伪分布式和完转载 2016-10-18 17:07:27 · 333 阅读 · 0 评论 -
map/reduce之间的shuffle,partition,combiner过程的详解
Shuffle的本意是洗牌、混乱的意思,类似于java中的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。MapReduce中的Shuffle过程。所谓Shuffle过程可以大致的理解成:怎样把map task的输出结果有效地传送到reduce输入端。也可以这样理解, Shuffle描述着数据从map task输出到reduce task输入的这段过转载 2017-05-12 16:05:28 · 1037 阅读 · 0 评论 -
MapReducer程序调试技巧(搭建伪分布式集群)
写过程序分布式代码的人都知道,分布式的程序是比较难以调试的,但是也不是不可以调试,对于Hadoop分布式集群来说,在其上面运行的是mapreduce程序,因此,有时候写好了mapreduce程序之后,执行结果发现跟自己想要的结果不一样,但是有没有报错,此时就很难发现问题,查找问题的方法之一就是对程序进行调试,跟踪代码的执行,找出问题的所在。那么对于Hadoop的Mapreduce是如何进行调试的呢转载 2017-05-12 16:10:37 · 605 阅读 · 0 评论 -
HIVE中join、semi join、outer join举例详解
HIVE中join、semi join、outer join举例详解 举例子: hive> select * from zz0; 111111 222222 888888 hive> select * from zz1; 111111 333333 444444 888888 hive> select * from zz0 join zz1 o转载 2017-07-19 17:53:25 · 1048 阅读 · 0 评论