学习_008_Hadoop从初级到高手

钱锋0519

于 2019-08-21 19:08:31 发布

阅读量192

点赞数

分类专栏：大数据课程学习文章标签：大数据 Hadoop 学习入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42258472/article/details/99985967

版权

大数据课程学习专栏收录该内容

12 篇文章

订阅专栏

该博客介绍了Hadoop的学习心得，包括Hadoop的部署、MapReduce编程、Map和Reduce的详细解析，以及Hadoop的高可用性。通过学习，理解了Hadoop的存储、计算和调度机制，MapReduce的完整过程，数据倾斜问题及其解决方案，以及Hadoop的HA实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

课程说明

项	内容
课程类型	视屏课程
内容类型	Hadoop
课程名称	hadoop从初级到高手
地址	https://edu.youkuaiyun.com/course/detail/6841
时长	1500
费用	免费

学习心得

这个视频课程讲的非常详细，先把课程内容结构列出，再用流程图的方式讲解过程细节，再进行实际编码操作，最后验证数据，总结回顾。
因为我最主要的是了解Hadoop的结构、原理、过程。并不需要了解Hadoop的搭建、配置、MapReduce的编程，所以跳过的比较多。课程1500分钟，双倍速度播放，一共用了大概5个小时近300分钟的时间。虽然没有上机操作，但收获还是很多的。

更清楚了Hadoop存储、计算、调度之间的关系，HDFS不只是存储，更重要的工作是文件管理，自动实现分布式的文件读、写、存、备份、容错等功能
理解了MapReduce计算的完整过程，这有利于以后数据处理任务开发时的排错和优化
了解了数据处理中常见的数据倾斜问题发生的原理和处理方式
终于知道了为什么都说Hadoop扩展性强，成本低，易管理，高可用，强容错。通过把文件、存储甚至是计算资源切分成更小单位后重组的方式，实现了部分变更不影响整体，避免了部分问题引发全面崩溃，实现了部分新增扩展整体资源上限的能力。这就像是把原先的一根链条变成了一张大网，链条任意缓解断裂，整个链条就断裂了。但一张网的某些节点断裂，并不会太影响这张网的作用。能这样做，也是因为资源充足，可以冗余备份。

课程目录和概要

一.Hadoop的部署和配置

1.Hadoop组成

Common
HDFS（分布式文件系统）
MapReduce（MR编程模型）
YARN（资源调度框架）

2.Hadoop的部署模式

Local（本地）
Pseudo（伪分布式）
Full（完全分布式）

3.Hadoop的管理

配额管理（目录配额/空间配额）
快照管理（记录的是数据的差异）
镜像管理（记录的是复制的数据）

4.Hadoop数据写入流程剖析

client联系Namenode
数据先写入client的缓冲区
缓冲区有两个队列
send是发送队列（数据发送后会进入ack队列）
ack是确认队列（收到消息的回执会删除数据）
通过packet（64K）的方式发送，内部有chunk（512b+4b）
通过pipeline，写入dn1后，自动写入dn2和dn3

5.各种压缩算法效能评测

如何在HDFS中进行数据压缩以实现高效存储？（这篇文章写得更详细）
http://blog.itpub.net/31545816/viewspace-2215281/

二.MapReduce的编程

1.Map负责变换（对数据切分转换为kv格式）

输出的数据是kv格式
Map的数量取决于split的结果

2.Reduce负责聚合（对kv数据按k进行聚合）

Map的输出是Reduce的输入
输入输出的数据都是kv格式
Reduce的数量可以自行指定

3.Shuffle负责混洗（核心机制：数据分区，排序，局部聚合，缓存，拉取，再合并排序）

Hadoop学习之路（二十三）MapReduce中的shuffle详解（这篇文章写得更详细）
https://www.cnblogs.com/qingyunzong/p/8615024.html
Map和Reduce中间有Shuffle的过程（混洗）

三.Map和Reduce详解

1.排序

部分排序（Map输出的数据在单个Reduce里基于key有序）
全排序（所有Reduce的key都有序）
二次排序（Reduce里的key和value都有序）

2.连接查询（内连接，外连接，全连接）

Map端连接（数据到达Map处理函数之前进行合并，效率远高于Reduce端连接，适合一大一小表可以都加载到内存中）
Reduce端连接（通过二次排序，所有数据都要经过Shuffle，非常消耗资源，能解决两个大表的问题）

3.数据倾斜（大量的数据聚集在少数几个节点运算）

Map较少产生倾斜，Reduce的倾斜主要是经过hashpartitioner后大部分数落入了少数几个Reduce中
硬倾斜:大量数据的key相同，落入到相同的Redduce中
软倾斜:输入的key不同，经过分组计算落入到了相同的Reduce中

4.数据倾斜解决方法

重新设置key，可解决硬倾斜
重新设计分区类（放弃hash分区，使用随机分区）

四.MapReduce全流程详解

1.InputFormat（输入）

getSplits()
createReader()
isSplits()

2.RecordReader（阅读器）

nextKV()

3.Map

run()
setup()
loop:map
cleanup()
Partitioner
combiner

4.Reduce

shot:sortsortComparator（key - value）
group:groupComparator
run()
setup
loop:reduce
clean()

5.OutputFormat

getRecordWriter()

6.Writer

write（key，value）

五.Hadoop的高可用（HA）

Hadoop的HA（高可用）实现方式就是冗余+故障自动转移
异地多活，一个出故障了，立即切换另一个，两个同时出故障几率太小

博客等级

码龄7年

29
原创

32
点赞

88
收藏

40
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 学习_007_大数据零基础入门视频教程精品课程&项目管理

下一篇：: 学习_009_Hadoop大数据实战开发

最新评论

概念-数据域是什么？
小小李dream: 那主题域和数据域的区别呢
概述-数据湖是什么？
X_dongsheng: 完全赞同！~ 湖仓一体
概述-数据建模是什么？
xiaoxm_001: 挺好,有自己的思考,无论事实是否如此,我都给你点赞
概念-数据域是什么？
吸欧大王: 我的思考： 1.从建设的角度上来说划分数据域就是将数据化整为零，将业务相似相关的数据进行分组整合，在数据治理的过程中可以逐域梳理，逐域治理，做到不重复且不遗漏。 2.从数据的资产化、易用化的角度来说数据域可以作为企业业务人员在使用数据时的第一个分组的入口，可以帮助业务人员快速的从海量数据中圈定到自己需要的业务数据。
数据文章目录（关于大数据概念、工具、工作、流程、问题、技术的见识和思考）
IT小多: 牛啊，追了

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。