大数据入门概念及应用场景
一、入门概念
1.1 大数据的4V
- Volume(体积)
- Variety (多样)
- Velocity(效率)
- Veracity( Value,价值)
Veracity( Value,价值):数据的体积并不能决定其是否对决策产生帮助,数据的重要性就在于对决策的支持,并产生价值。

1.2 大数据处理的最佳工具–Hadoop
- 由 Doug Cutting所发起的开源分布式计算框架
- 储存并处理海量结构与非结构信息
- 执行数据分析程序于分布式系统上
- 简化分布式系统的管理与资源调度
- 线性化的扩充能力
- 高可用性与容错性

1.3 Hadoop的核心架构
Hadoop的核心,说白了,就是HDFS和MapReduce。HDFS为海量数据提供了存储,而MapReduce为海量数据提供了计算框架。

二、一些重要的知识点
2.1 HDFS

整个HDFS有三个重要角色:NameNode(名称节点)、DataNode(数据节点)和Client(客户机)。

**NameNode:**是Master节点(主节点),可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。
**DataNode:**是Slave节点(从节点),是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。
**Client:**切分文件;访问HDFS;与NameNode交互,获得文件位置信息;与DataNode交互,读取和写入数据。
还有一个**Block(块)**的概念:Block是HDFS中的基本读写单元;HDFS中的文件都是被切割为block(块)进行存储的;这些块被复制到多个DataNode中;块的大小(通常为64MB)和复制的块数量在创建文件时由Client决定。
2.1.1 HDFS的写入流程

- 用户向Client(客户机)提出请求。例如,需要写入200MB的数据。
- Client制定计划:将数据按照64MB为块,进行切割;所有的块都保存三份。
- Client将大文件切分成块(block)。
- 针对第一个块,Client告诉NameNode(主控节点),请帮助我,将64MB的块复制三份。
- NameNode告诉Client三个DataNode(数据节点)的地址,并且将它们根据到Client的距离,进行了排序。
- Client把数据和清单发给第一个DataNode。
- 第一个DataNode将数据复制给第二个Data

最低0.47元/天 解锁文章

532

被折叠的 条评论
为什么被折叠?



