大数据入门1:Hadoop基本介绍

本文介绍了Hadoop生态系统在大数据存储、处理及分析中的关键作用,涵盖了Hadoop的主要组件如MapReduce、YARN和HDFS,以及生态内的其他重要工具如Hive、Pig、Giraph和实时处理框架Storm、Spark、Flink。此外,还提到了NoSQL数据库(如Cassandra、MongoDB、HBase)和集中管理系统Zookeeper的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop:基本介绍

Hadoop生态作用:

  1. 数据存储:在商用硬件(commodity hardware)上提供扩展来存放大量的数据
  2. 容错性:快速从局部错误、硬盘错误中恢复
  3. 数据多样性:支持多种形式的数据,比如图像、网络等。
  4. 创造共享的环境: 由于即使是中等规模的集群也可以有多个核心,因此允许多个作业同时执行是很重要的。
  5. 为公司创造价值。

主要工具:

  • MapReduce:处理大数据的程序模型。MapReduce只采用有限的模型来表示数据。

  • YARN: the scheduler and resource manager. 调度程序和资源管理器。

  • HDFS:兼容最好的标准级文件系统(对于用户来说,就是一个巨大的硬盘)

    知乎:HDFS详解


*更多工具:

  • Hive和Pig是MapReduce之上的两个额外的编程模型,分别用关系代数和数据流建模来增强MapReduce的数据建模。

    • Hive是在Facebook上创建的,用于在HDFS中对数据使用MapReduce发出类似sql的查询。

    • Pig是在雅虎创建的,用于使用MapReduce对基于数据流的程序建模。由于YARN管理资源的稳定性,不仅为MapReduce,但其他编程模型提供服务。

  • 为了有效地处理大规模的图形,建立了Giraph。例如,Facebook使用Giraph来分析其用户的社交图表。

  • Storm、SparkFlink是基于YARN资源调度器和HDFS构建的,用于实时和大数据的内存处理。内存处理是一种更快速运行大数据应用程序的强大方法,在某些任务上实现了100x的更好性能。

  • NoSQL (Cassandra、MongoDB、HBase),使用存储的文件和目录的模型来表示数据或处理任务有些麻烦。这样的例子包括大型稀疏表的几何和可信值。以上这些用来处理这种情况

  • Zookeeper:所有工具的集中管理系统,保证同步、配置和高可用性。

根据不同的需求选择不同的工具

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值