大数据及Hadoop的理解

最新推荐文章于 2022-03-12 13:16:59 发布

纵死侠骨香

最新推荐文章于 2022-03-12 13:16:59 发布

阅读量638

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41808387/article/details/102750112

大数据专栏收录该内容

36 篇文章

订阅专栏

本文探讨大数据的四大特点：大量、高速、多样及低价值密度，深入讲解Hadoop框架，包括其高可靠性、高扩展性、高效性和高容错性的优点。详细介绍了Hadoop的组成部分：HDFS、MapReduce和YARN，以及它们各自的架构和功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

一、大数据的特点：

二、从Hadoop框架讨论大数据生态

HDFS架构概述：

YARN架构简述：

MapReduce架构简述：

三、大数据技术生态体系

四、推荐系统框架图

一、大数据的特点：

1、大量（Volume）大数据的特征首先就体现为“大”，从先Map3时代，一个小小的MB级别的Map3就可以满足很多人的需求，然而随着时间的推移，存储单位从过去的GB到TB，乃至现在的PB、EB级别

2、高速（Velocity）大数据的产生非常迅速，主要通过互联网传输。大数据对处理速度有非常严格的要求，服务器中大量的资源都用于处理和计算数据，很多平台都需要做到实时分析。数据无时无刻不在产生，谁的速度更快，谁就有优势。

3、多样（Variety） 数据来源多如手机，电脑，可穿戴设备，智能家居。数据格式多例如网络日志、图片、音频、视频、地理位置信息等

4、低价值密度（Value）这也是大数据的核心特征。现实世界所产生的数据中，有价值的数据所占比例很小。大数据最大的价值在于通过从大量不相关的各种类型的数据中，挖掘出对未来趋势与模式预测分析有价值的数据，并通过机器学习方法、人工智能方法或数据挖掘方法深度分析，发现新规律和新知识，并运用于农业、金融、医疗等各个领域，从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。

二、从Hadoop框架讨论大数据生态

1、概念

Hadoop是一个由Apache基金会所开发的分布式系统基础架构

主要用于解决：海量数据的存储和海量数据的分析计算问题。

2、优点

1）高可靠性：因为Hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。

2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

4）高容错性：自动保存多份副本数据，并且能够自动将失败的任务重新分配。

3、组成

1）Hadoop HDFS：（hadoop distribute file system ）一个高可靠、高吞吐量的分布式文件系统。

2）Hadoop MapReduce：一个分布式的离线并行计算框架。

3）Hadoop YARN：作业调度与集群资源管理的框架。

4）Hadoop Common：支持其他模块的工具模块（Configuration、RPC、序列化机制、日志操作）。

HDFS架构概述：

（1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），

以及每个文件的块列表和块所在的DataNode等。

（2）DataNode（dn）：在本地文件系统中存储文件块数据，以及块数据的校验和。

（3）Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

YARN架构简述：

1） ResourceManager(rm)：处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度；

2）NodeManager(nm)：单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令；

3）ApplicationMaster：数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错。

4）Container：对任务运行环境的抽象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

MapReduce架构简述：

MapReduce将计算过程分为两个阶段：Map（映射）和Reduce（归约）

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

三、大数据技术生态体系

四、推荐系统框架图

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。