
hadoop
dwjf321
这个作者很懒,什么都没留下…
展开
-
Hadoop 从 0 到 1 学习 ——第十四章 Hadoop 企业优化
文章目录1. MapReduce 跑的慢的原因2. MapReduce 优化方法2.1 数据输入优化2.2 Map 阶段优化2.3 Reudce 阶段优化2.4 I/O 传输2.5 数据倾斜问题优化2.6 常用的调优参数2.6.1 资源相关参数2.6.2 容错相关参数(MapReduce性能优化)3. HDFS 小文件优化方法3.1 HDFS 小文件弊端3.2 HDFS 小文件解决方案1. MapReduce 跑的慢的原因MapReduce 程序效率的瓶颈在于两点:计算机性能CPU、内存、磁盘健原创 2020-11-26 17:28:55 · 281 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第十三章 Yarn 资源调度器
Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。文章目录1. Yarn 基本架构2. Yarn 工作机制2.1 Yarn 运行机制图解2.2 Yarn 运行机制详解3. 作业提交全过程3.1 作业提交过程之 YARN3.2 作业提交过程之 MapReduce4. 资源调度器4.1 先进先出调度器(FIFO)4.2 容量调度器(Capacity Scheduler)4.3 公平调度器(Fa原创 2020-11-26 17:27:51 · 258 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第十二章 Hadoop 数据压缩
文章目录1. 压缩概述2. 压缩策略和原则3. MR 支持的压缩编码4. 压缩方式选择4.1 Gzip 压缩4.2 Bzip2 压缩4.3 Lzo 压缩4.4 Snappy 压缩5. 压缩位置选择6. 压缩参数配置7. 压缩实操案例7.1 数据流的压缩和解压缩7.2 测试 Hadoop 压缩方式7.3 Map 输出端采用压缩7.4 Reduce 输出端采用压缩1. 压缩概述压缩计算能够有效减少底层存储系统读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行 MR 程序时, I/O 操作、网络传输、S原创 2020-11-26 17:23:53 · 261 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第十一章 MapReduce 框架原理
文章目录1. InputFormat 数据输入1.1 切片与 MapTask 并行度决定机制1.2 Job 提交流程源码和切片源码详解1.3 FileInputFormat 切片机制1.3.1 切片机制1.3.2 案例分析1.3.3 FileInputFormat 切片大小的参数配置1.4 CombineTextInputFormat 切片机制1.4.1 应用场景1.4.2 虚拟存储切片最大值设置1.4.3 切片机制1.5 CombineTextInputFormat 案例操作1.5.1 需求1.5.2 实原创 2020-11-26 17:22:19 · 527 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第十章 Hadoop 序列化
文章目录1. 序列化概述1.1 什么是序列化1.2 为什么要序列化1.3 为什么不使用 Java 的序列化2. 自定义 bean 对象实现序列化接口(Writable)3. 序列化案例操作3.1 需求3.2 需求分析3.3 编写 MapReduce 程序1. 序列化概述1.1 什么是序列化序列化就是把内存中的对象转换成字节序列(或其他数据传输协议),以便存储到磁盘(持久化)和网络传输。反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘持久化数据转换成内存中的对象。1.2 为什么要序列化原创 2020-11-26 17:15:39 · 417 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第九章 MapReduce 概述
文章目录1. MapReduce 定义2. MapReduce 优缺点2.1 优点2.2 缺点3. MapReudce 核心思想4. MapReduce 进程5. 常用数据序列化类型6 .MapReduce 编程规范7. WordCount 案例操作7.1 需求7.2 需求分析7.3 编写程序1. MapReduce 定义MapReduce 是一个分布式运算程序的编程框架,是基于 Hadoop 的数据分析计算核心框架。MapReduce 处理过程分为两个阶段:Map 和 Reduce:Map 负责原创 2020-11-26 17:13:17 · 294 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第八章 HDFS HA高可用
HDFS-HA工作机制 自动故障转移工作机制 HDFS-HA 集群配置原创 2020-11-26 17:10:09 · 362 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第七章 HDFS 2.X新特性
文章目录1. 集群间数据拷贝2. 小文件存档2.1 HDFS 存储小文件弊端2.2 解决存储小文件办法之一2.3 案例操作3. 回收站3.1 开启回收站功能参数说明3.2 回收站工作机制4. 快照管理4.1 快照管理4.2 案例操作1. 集群间数据拷贝scp实现两个远程主机之间的文件复制推 push$ scp -r hello.txt root@hadoop103:/user/dwjf321/hello.txt拉 pull$ scp -r root@hadoop103:/user/atgu原创 2020-11-26 17:07:55 · 271 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第六章 HDFS NameNode 和 SecondaryNameNode 详解 (面试开发重点)
文章目录1. NameNode和SecondaryNameNode1.1 NameNode 和 SecondaryNameNode 工作机制1.2 Fsimage 和 Edits 解析1.2.1 概念1.2.2 oiv 查看 Fsimage 文件1.2.3 oev 查看 Edits 文件1.3 CheckPoint 时间设置1.4 NameNode故障处理1.5 集群安全模式1.5.1 概述1.5.2 基本语法1.5.3 案例1.6 NameNode 多目录配置2. DataNode 详解2.1 DataN原创 2020-11-26 17:05:39 · 329 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第一章 Hadoop 介绍
文章目录1. 大数据概论1.1 大数据概念1.2 大数据特点 (4V)1.3 大数据应用场景1.4 大数据部门业务流程分析1.5 大数据部门组织结构2. 从Hadoop框架讨论大数据生态2.1 Hadoop 是什么2.2 Hadoop 发展历史2.3 Hadoop 三大发行版本2.4 Hadoop的优势(4高)3. Hadoop 组成(面试重点)3.1 HDFS 架构概述3.2 YARN 架构概述3.3 MapReduce 架构概述4. 大数据技术生态体系5. 推荐系统框架图1. 大数据概论1.1 大原创 2020-10-29 14:28:28 · 639 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第二章 Hadoop 运行环境搭建
文章目录1. 虚拟机环境准备2. 安装 JDK3. SSH 免密登录配置3.1 ssh连接另一台电脑基本语法3.2 无密钥配置5. 编写集群分发脚本 xsync5.1 scp(secure copy)安全拷贝5.2 rsync 远程同步工具5.3 xsync集群分发脚本6. 安装 Hadoop6.1 hadoop 目录结构6.2 配置集群6.2.1 核心配置文件6.2.2 HDFS配置文件6.2.3 YARN配置文件6.2.4 MapReduce配置文件6.2.5 在集群上分发配置好的 hadoop 配置文原创 2020-10-29 14:30:44 · 344 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第三章 初识HDFS
文章目录1. HDFS 概述1.1 HDFS 产生背景及定义1.11 HDFS 产生背景1.1.2 HDFS 定义1.1.3 HDFS 的使用场景1.2 HDFS 优缺点1.2.1 优点1.2.2 缺点1.3 HDFS 组成架构1.3.1 NameNode (nn)1.3.2 DataNode1.3.3 Client1.3.4 Secondary NameNode1.4 HDFS 文件块大小 (面试重点)1. HDFS 概述1.1 HDFS 产生背景及定义1.11 HDFS 产生背景随着数据量越来越原创 2020-10-29 14:34:43 · 663 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第四章 HDFS客户端操作
文章目录1. HDFS 的 Shell 操作 (开发重点)1.1 基本语法1.2 命令大全1.3 常用命令实操2. HDSF Java客户端操作(开发重点)2.1 Java 客户端操作 HDFS1. HDFS 的 Shell 操作 (开发重点)1.1 基本语法$ bin/hadoop fs 具体命令或者$ bin/hdfs dfs 具体命令dfs 是 fs 的实现类。1.2 命令大全[dwjf321@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-ap原创 2020-10-29 14:37:22 · 196 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第五章 HDFS 数据流
文章目录1. HDFS 的数据流 (面试重点)1.1 HDFS 写数据流程1.1.1 剖析写数据流程1.1.2 网络拓扑 - 节点距离计算1.1.3 机架感知 (弗恩存储节点选择)1.2 HDFS 读数据流程1. HDFS 的数据流 (面试重点)1.1 HDFS 写数据流程1.1.1 剖析写数据流程HDFS 写数据流程客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否原创 2020-10-29 14:40:46 · 269 阅读 · 0 评论