大数据入门概念及应用场景

最新推荐文章于 2025-10-18 18:19:16 发布

原创

最新推荐文章于 2025-10-18 18:19:16 发布 · 3k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大数据 #数据分析 #hive #big data

参考内容：
【知乎】深入浅出大数据：到底什么是Hadoop？
【知乎】五万字 | Hive知识体系保姆级教程

一、入门概念

1.1 大数据的4V

Volume(体积)
Variety (多样)
Velocity(效率)
Veracity( Value,价值)

Veracity( Value,价值)：数据的体积并不能决定其是否对决策产生帮助,数据的重要性就在于对决策的支持,并产生价值。
在这里插入图片描述

1.2 大数据处理的最佳工具–Hadoop

由 Doug Cutting所发起的开源分布式计算框架
储存并处理海量结构与非结构信息
执行数据分析程序于分布式系统上
简化分布式系统的管理与资源调度
线性化的扩充能力
高可用性与容错性

在这里插入图片描述

1.3 Hadoop的核心架构

Hadoop的核心，说白了，就是HDFS和MapReduce。HDFS为海量数据提供了存储，而MapReduce为海量数据提供了计算框架。
在这里插入图片描述

二、一些重要的知识点

2.1 HDFS

在这里插入图片描述

整个HDFS有三个重要角色：NameNode（名称节点）、DataNode（数据节点）和Client（客户机）。
在这里插入图片描述

**NameNode：**是Master节点（主节点），可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

**DataNode：**是Slave节点（从节点），是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。

**Client：**切分文件；访问HDFS；与NameNode交互，获得文件位置信息；与DataNode交互，读取和写入数据。

还有一个**Block（块）**的概念：Block是HDFS中的基本读写单元；HDFS中的文件都是被切割为block（块）进行存储的；这些块被复制到多个DataNode中；块的大小（通常为64MB）和复制的块数量在创建文件时由Client决定。

2.1.1 HDFS的写入流程

在这里插入图片描述

用户向Client（客户机）提出请求。例如，需要写入200MB的数据。
Client制定计划：将数据按照64MB为块，进行切割；所有的块都保存三份。
Client将大文件切分成块（block）。
针对第一个块，Client告诉NameNode（主控节点），请帮助我，将64MB的块复制三份。
NameNode告诉Client三个DataNode（数据节点）的地址，并且将它们根据到Client的距离，进行了排序。
Client把数据和清单发给第一个DataNode。
第一个DataNode将数据复制给第二个Data

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。