1、Hadoop 是 Apache 旗下的一套开源软件平台
2、Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分
布式处理
3.Hadoop 的核心组件有
A.Common(基础功能组件)(工具包,RPC 框架)JNDI 和 RPC
B.HDFS(Hadoop Distributed File System 分布式文件系统)
C.YARN(Yet Another Resources Negotiator 运算资源调度系统)
D.MapReduce(Map 和 Reduce 分布式运算编程框架)
4.重点组件:
HDFS:Hadoop 的分布式文件存储系统
MapReduce:Hadoop 的分布式程序运算框架,也可以叫做一种编程模型
Hive:基于 Hadoop 的类 SQL 数据仓库工具
HBase:基于 Hadoop 的列式分布式 NoSQL 数据库
ZooKeeper:分布式协调服务组件
Mahout:基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库
Stay hungry Stay foolish -- http://blog.youkuaiyun.com/zhongqi2513
Oozie/Azkaban:工作流调度引擎
Sqoop:数据迁入迁出工具
Flume:日志采集工具
//
5概念讲解:
A.集群 + 负载均衡
B.分布式
1、 该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或
模块之间通过网络通信进行协作,实现最终的整体功能
2、 比如分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件
系统和分布式数据库系统等。
总结:利用多个节点共同协作完成一项或多项具体业务功能的系统就是分布式系统
6//
5、 数据处理流程
A、数据采集:定制开发采集程序,或使用开源框架 Flume 或者 LogStash
B、数据预处理:定制开发 MapReduce 程序运行于 Hadoop 集群,或者专门数据收集工具
也能进行数据预处理
C、数据仓库技术:基于 Hadoop 之上的 Hive
D、数据导出:基于 Hadoop 的 Sqoop 数据导入导出工具
E、数据可视化:定制开发 web 程序或使用 Kettle 等产品
F、数据统计分析:Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive,
或者 Spark,Flink
G、整个过程的流程调度:Hadoop 生态圈中的 Oozie/Azkaban 工具或其他类似开源产品
///
HDFS:Hadoop Distributed File System Hadoop 分布式文件系统,主要用来解决海量数据的存
储问题
1、 设计思想
分而治之:将大文件,大批量文件,分布式的存放于大量服务器上。以便于采取分而治
之的方式对海量数据进行运算分析
2、 在大数据系统架构中的应用
为各类分布式运算框架(MapReduce,Spark,Tez,Flink,…)提供数据存储服务
3、 重点概念:数据块/副本,负载均衡,心跳机制,副本存放策略,元数据/元数据管理,
安全模式,机架感知…
..............................................................................
HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储,那是怎么做到的呢主节点
1、 大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行
2、 每个小文件做冗余备份,并且分散存到不同的服务器,做到高可靠不丢失
..............................................................................
主节点 Namenode:集群老大,掌管文件系统目录树,处理客户端读且请求
SecondaryNamenode:严格说并不是 namenode 备份节点,主要给 namenode 分担压力之用
从节点 Datanode:存储整个集群所有数据块,处理真正数据读写
思考问题:SecondaryNameNode 和 Standby Namenode 的区别?
重要特性如下:
1、HDFS 中的文件在物理上是分块存储(block),块的大小可以通过配置参数(dfs.blocksize)
来规定,默认大小在 hadoop2.x 版本中是 128M,老版本中是 64M
2、HDFS 文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形
如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data
hdfs://hadoop02:9000/soft/hadoop-2.6.5-centos-6.7.tar.gz
3、目录结构及文件分块位置信息(元数据)的管理由 namenode 节点承担
namenode 是 HDFS 集群主节点,负责维护整个 hdfs 文件系统的目录树,以及每一个路径(文
件)所对应的 block 块信息(block 的 id,及所在的 datanode 服务器)
4、文件的各个 block 的存储管理由 datanode 节点承担
datanode 是 HDFS 集群从节点,每一个 block 都可以在多个 datanode 上存储多个副本(副本
数量也可以通过参数设置 dfs.replication,默认是 3)
5、HDFS 是设计成适应一次写入,多次读出的场景,且不支持文件的修改
(PS:适合用来做数据分析,并不适合用来做网盘应用,因为,不便修改,延迟大,网络开
销大,成本太高)
3、HDFS 优缺点
3.1、HDFS 优点
可构建在廉价机器上
通过多副本提高可靠性,提供了容错和恢复机制
高容错性
数据自动保存多个副本,副本丢失后,自动恢复
适合批处理
移动计算而非数据,数据位置暴露给计算框架
适合大数据处理
GB、TB、甚至 PB 级数据,百万规模以上的文件数量,10K+节点规模
流式文件访问
一次性写入,多次读取,保证数据一致性
3.2、HDFS 缺点
不适于以下操作:
低延迟数据访问
比如毫秒级
低延迟与高吞吐率
小文件存取
占用 NameNode 大量内存 150b* 1000W = 15E,1.5G
寻道时间超过读取时间
并发写入、文件随机修改
一个文件只能有一个写者
仅支持 append
HDFS 不适合存储小文件
元信息存储在 NameNode 内存中
一个节点的内存是有限的
存取大量小文件消耗大量的寻道时间
类比拷贝大量小文件与拷贝同等大小的一个大文件
NameNode 存储 block 数目是有限的
一个 block 元信息消耗大约 150 byte 内存
存储 1 亿个 block,大约需要 20GB 内存
如果一个文件大小为 10K,则 1 亿个文件大小仅为 1TB(但要消耗掉 NameNode 20GB
内存)