
hadoop
sofeld
出肉的长颈鹿.
展开
-
【hadoop】hadoop的安装部署
安装方式:伪分布式,让进程跑在一台机器上,只是他们的端口不一样 官方快速配置文档: http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html 使用rz命令上传并解压 tar -zxvf hadoop-2.7.3.tar.gz -C ../modules/ hadoop目录...原创 2019-07-01 21:24:08 · 135 阅读 · 0 评论 -
【hadoop框架】MapReduce 在 YARN 运行详解
(1)Client向Yarn主节点RM提交应用 bin/yarn jar MainClass args (2)RM在某个NM节点上启动一个Container运行AppMaster,运行应用的管理者 (3)AppMaster向RM请求资源,为了运行MapReduce中所有的Task,RM将分配NM是哪个资源,并且告知AppMaster (4)AppMaster联系NM,启动Container中相关...原创 2019-07-02 22:40:46 · 194 阅读 · 0 评论 -
【大数据hadoop框架】MapReduce编程——HDFS API的编写
porm.xml MapReduce处理数据流程 在整个MapReduce程序中,所有的数据的流程流式都是键值对(Key-value) Input -> Map ->shuffle->Reduce ->Output (1)针对于Input和Output来讲,正常情况下,不需要编写任何的代码, 只需要指定对应目录即可。 (2)核心关注map和reduce <?xml...原创 2019-07-02 22:53:49 · 322 阅读 · 0 评论 -
【hadoop】Hadoop数据类型的转换及自定义数据类型总结
Hadoop数据类型 Hadoop的数据类型和我们Java将数据类型是一样的,只不过Hadoop重新封装了一些类型,这些类型和Java的包装类非常非常相似。 数据类型的转换 Hadoop类型 Java类型的转换 -> get <- set 自定义数据类型 具体实现 (1)创建类实现WritableComparable或者Writable (2)根据需要定义属性,生成...原创 2019-07-03 23:30:29 · 1264 阅读 · 0 评论 -
【hadoop】shuffle过程的优化
shuffle 过程的优化(MapReduce 的优化) combiner 合并优化 在 map 阶段提前进行了一次合并,一般来讲等同于提前执行了 reduce 操作 好处:可以降低 reduce 的压力 为什么说在 map 阶段提前运行 reduce 方法可以降低 reduce 的压力? 在 map阶段的进行合并是并行的(分布式的)。 combiner 合并可以解决数据倾斜问题: 什么...原创 2019-07-05 22:59:26 · 654 阅读 · 0 评论