
hadoop
文章平均质量分 91
hadoop学习笔记 HDFS、MapReduce、YARN
「已注销」
这个作者很懒,什么都没留下…
展开
-
大数据技术之hadoop ——(十一)OutputFormat概述、自定义OutputFormat
文章目录一、OutputFormat概述二、自定义OutputFormat前面学习了MapReduce流程中的shuffle阶段,现在学习OutputFormat数据输出一、OutputFormat概述【1】OutputFormat接口实现类:OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。【2】默认输出格式是TextOutputFormat【3】自定义Ou...原创 2021-08-22 10:17:19 · 555 阅读 · 1 评论 -
大数据技术之hadoop ——(十)Shuffle机制、MapReduce中的shuffle流程
分区 默认分区 HashPartitioner 默认按照key的hashcode值 % numreducetask个数自定义分区;溢写前需要排序 排序部分排序:每个输出文件的内部都是有序的全排序:一个reduce,对所有的数据进行排序二次排序:自定义排序范畴,实现WritableComparable接口,重写CompareTo()先总流量倒序,再按上行流量正序Combiner 预聚合前提条件:不影响最终的业务逻辑,才能使用Combiner原创 2021-08-21 11:24:19 · 416 阅读 · 0 评论 -
大数据技术之hadoop——(九)InputFormat数据输入与切片机制
本篇文章就从数据输入Inputformat入手,切片与MapTask并行度决定机制MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。思考:1G 的数据,启动 8 个 MapTask,可以提高集群的并发处理能力。那么 1K 的数据,也启动 8 个 MapTask,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?原创 2021-08-16 23:06:40 · 377 阅读 · 0 评论 -
大数据技术之hadoop——(八)hadoop序列化
什么是序列化:序列化就是将内存中的对象转换为字节传输,反序列化就是将接收到的字节序列转换为对象为什么要序列化:方便传输和持久化为什么不用java的序列化:java序列化泰国笨重 效率不高自定义类实现序列化接口必须有空参构造 序列化和反序列化顺序必须一致,如果要作为key传输则要实现Comparable接口原创 2021-08-15 23:11:36 · 216 阅读 · 0 评论 -
大数据技术之hadoop——(七)MapReduce概述+wordcount案例实操
MapReduce·概述 wordcount源码+自定义wordcount案例实操+本地测试+集群测试多图详解原创 2021-08-12 18:41:20 · 462 阅读 · 0 评论 -
大数据技术之hadoop——(六)HDFS读写流程+nn工作机制+dn工作机制
浅析hdfs的读写流程 nn和2nn的工作机制 dn的工作机制文章目录一、HDFS的读写流程1.1 hdfs写数据流程1.2 hdfs读数据流程二、NameNode和SecondaryNamenode2.1NN和2NN工作机制2.1.1namenode启动2.1.2SecondaryNameNode工作2.2fsimage和edits解析ovi查看fsimage镜像文件oev查看Edits文件2.3 CheckPoint间隔时间设置三、DataNo...原创 2021-08-12 13:55:34 · 351 阅读 · 0 评论 -
大数据技术之hadoop——(五)HDFS概述+HDFS的Shell操作+HDFS的API操作
大数据技术zhihadoop——HDFS的概述 常用shell命令 常用的HDFS的API操作原创 2021-08-11 20:00:41 · 206 阅读 · 0 评论 -
大数据技术之hadoop——(四)历史服务器+常用脚本
大数据技术之hadoop详细文章 --——hadoop完全分布式集群的补充原创 2021-08-10 20:58:19 · 595 阅读 · 1 评论 -
大数据技术之hadoop——(三)完全分布式集群搭建(多图详细步骤)
大数据技术之hadoop,最详细从零搭建hadoop完全分布式集群 多图 丝丝入扣循序渐进 虚拟的克隆-->jdk、hadoop的安装与环境变量的配置 my_env.sh--->同步分发脚本---> xsync集群分发脚本--->SSH免密登录----->集群部署 集群规划 +hadoop配置文件的修改--->启动集群 -->集群测试原创 2021-08-09 23:06:51 · 2692 阅读 · 1 评论 -
大数据技术之hadoop——(二)环境准备&模板机创建(详细步骤)
大数据技术之hadoop——从0到1搭建hadoop模板机,详细过程、多图详解、小白最佳入门 ****虚拟机环境准备***模板机创建详细步骤原创 2021-08-08 00:28:24 · 462 阅读 · 0 评论 -
大数据技术之Hadoop——(一)Hadoop简介
2021大数据技术学习之路原创 2021-08-04 21:19:36 · 804 阅读 · 0 评论