
Hadoop
文章平均质量分 87
丶阿喜z
浓缩的才是精华,分享中学习,从菜鸟做起。
展开
-
初识Hadoop两大核心:HDFS和MapReduce
一、Hadoop是什么? Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的小的工作单元,并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出 得、运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件原创 2017-11-29 14:10:39 · 27525 阅读 · 0 评论 -
Hadoop伪分布模式安装学习笔记
伪分布模式安装步骤概述:1. 修改ip 2. 修改hostname 3. 关闭防火墙 4. 设置ssh自动登录 5. 安装jdk 6. 安装hadoop伪分布模式安装详细步骤:【直接使用root用户登陆】,不要通过su root方式,因为通过这种方式有些操作不一定有权限。1.设置静态ip 在centos桌面右上角的图标上,右键修改。 执行命令 service n原创 2017-12-01 12:45:14 · 713 阅读 · 0 评论 -
Hadoop三种运行模式
简单概述Hadoop有下列三种运行模式:单机模式 伪分布式模式 完全分布式模式单机模式默认模式。不对配置文件进行修改。使用本地文件系统,而不是分布式文件系统。Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。用于对MapReduce程序的逻辑进行调试,确保转载 2017-11-27 20:53:55 · 2800 阅读 · 0 评论 -
Hive数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...转载 2018-03-25 12:52:47 · 736 阅读 · 0 评论