Hadoop理解之路

最新推荐文章于 2025-11-29 10:47:48 发布

转载最新推荐文章于 2025-11-29 10:47:48 发布 · 138 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：https://www.zhihu.com/question/23036370

文章标签：

#hadoop

经过时间的累积，Hadoop已经从最开始的两三个组件，发展成一个拥有20多个部件的生态系统。

在这里插入图片描述
在整个Hadoop架构中，计算框架起到承上启下的作用，一方面可以操作HDFS中的数据，另一方面可以被封装，提供Hive、Pig这样的上层组件的调用。
介绍一下其中几个比较重要的组件。

HBase：来源于Google的BigTable；是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。

Hive：是一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Pig：是一个基于Hadoop的大规模数据分析工具，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

ZooKeeper：来源于Google的Chubby；它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的难度。

Ambari：Hadoop管理工具，可以快捷地监控、部署、管理集群。

Sqoop：用于在Hadoop与传统的数据库间进行数据的传递。

Mahout：一个可扩展的机器学习和数据挖掘库。

再上一张图，可能看得更直观一点：

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kevinchen1985

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hadoop学习之路（二）Hadoop发展背景

狂奔的乌牛的博客

03-09

1668

Hadoop产生的背景 1、 HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2、 2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。 ——分布式文件系统（GFS），可用于处理海量网页的存储 ——分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。 ——BigTable 数据库：OLTP 联机事务

Linux上Hadoop安装包hadoop-2.7.4.tar.gz

10-10

YARN是Hadoop 2的核心组件之一，它将资源管理和作业调度/监控分离开来，极大地提升了集群的资源利用率和作业调度的灵活性。2.7.4版本还增强了系统的稳定性和性能，为大数据分析提供了更加强大和可靠的支撑。 hadoop...

参与评论您还未登录，请先登录后发表或查看评论

Hadoop之DataNode

weixin_57342469的博客

08-06

1382

修改：以后每周期（6小时）上报所有块信息！！！！！心跳机制：心跳机制是定时发送一个自定义的结构体(心跳包)，让对方知道自己还活着，以确保连接的有效性的机制。DataNode会主动联系NameNode。

hadoop之MapReduce

Yz9876的博客

09-12

1982

Hadoop的三大组件：HDFS、Yarn、MapReduce。HDFS：解决的是分布式存储的问题。MapReduce: 解决的是计算问题。Yarn: 计算的时候，使用的资源如何协调（Windows操作系统）mapReduce的优缺点：优点1、易于编程代码写起来有固定的格式，编写难度非常的小，号称是八股文【固定写法】。2、良好的扩展性代码的计算资源不够了，可以直接拓展几台即可解决3、高容出错如果负责计算的电脑挂掉了，直接可以将任务转移到其他电脑上，任务不会执行失败的。

Hadoop之Hive

云网数智安量子

04-19

2939

https://hive.apache.org/ 2.2 配置元数据到mysql mysql 安装配置 https://blog.youkuaiyun.com/qq_35911309/article/details/122266247 新建Hive元数据库 mysql -uroot -p’123456’ mysql> create database metastore;#hive_db或不配置时建 mysql> quit； #初始化元数据库表 TBLS COLUMNS_V2 SDS…mysql-connector-j

Hadoop安全之Kerberos

S1124654的博客

01-30

4052

Hadoop安全之Kerberos

大数据技术之Hadoop

我从不打没有准备的仗！

02-27

6107

大数据技术之Hadoop

【Hadoop的初级理解】

qq_41666483的博客

11-09

1119

对Hadoop的初步理解

理解Hadoop配置文件

qq_27896233的博客

06-27

884

理解Hadoop配置文件

hadoop之yarn

qq_17200461的博客

06-30

2372

yarn总结

理解Hadoop & Spark

qq_46416934的博客

08-30

1656

下图为HDFS的读，写操作过程。很有可能啊，技术总是随着需求的改变而不停更新的啊，作为技术工作者，是要不停学习新的更新产物，但会不会产生这种感觉：时代一直在发展，人家一直在发明创造新的方法，而我们一直在学习新的方法，那过去对旧方法的学习的那段时间是不是就浪费了，反正以后也不用了，这样就会有自己跟不上时代的感觉？它是专为大规模数据处理而设计的快速通用的计算引擎，提供了一个全面、统一的框架用于管理各种有着**不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）**的大数据处理的需求。...

深入理解hadoop

10-09

《深入理解Hadoop》这本书是Hadoop学习者的宝贵资源，它不仅涵盖了Hadoop生态系统的各个重要组件，还深入探讨了分布式计算的基础理论。Hadoop作为大数据处理的核心框架，其重要性不言而喻，尤其在处理海量数据时，它...

深入理解Hadoop（第二版）

06-12

本书详细地讲述了Hadoop生态圈中最为重要的几个组件。不仅介绍了Hadoop涉及的分布式理论基础知识，还着重讲解Hadoop系统的工程实践应用。为了深入浅出地讲述Hadoop各个组件的运行机理，作者使用了贴切的实战用例

精选资源

Hadoop3.4.1包

02-24

MapReduce作为Hadoop的核心组件之一，其目的在于分布式处理大量数据。MapReduce模型包含两个关键步骤：Map和Reduce。Map步骤处理输入数据生成中间键值对，而Reduce步骤则将具有相同键的所有值合并处理。3.4.1版本对...

精选资源

hadoop 3.1.4

10-03

Hadoop 3.1.4 是 Apache 软件基金会发布的一个重要版本，它作为大数据处理的核心框架，为用户提供...对于开发者和管理员来说，深入理解和掌握这个版本的特性，将有助于更好地利用 Hadoop 解决实际问题，推动业务发展。

openEuler入门学习教程，从入门到精通，openEuler 24.03 环境下 Hadoop 全面实践指南(19）

qq_45746668的博客

11-29

1013

大数据实践指南摘要本文详细介绍了在openEuler 24.03系统上部署Hadoop 3.3.6的完整流程。主要内容包括：环境准备：安装配置Java 11和SSH服务，设置免密登录 Hadoop安装：下载解压安装包，配置环境变量核心组件：解析HDFS和MapReduce架构原理运行模式：对比单机、伪分布和完全分布式三种模式实践案例：单机模式运行WordCount示例伪分布式模式配置与启动文章提供完整的配置文件修改示例和关键命令，适合开发者快速搭建Hadoop测试环境。

CheesyFabric_deepdive_analyst_7984_1764666209192.zip

12-03

CheesyFabric_deepdive_analyst_7984_1764666209192.zip

【卫星抗干扰】一种用于全球导航卫星系统反欺骗的空时融合方法【附MATLAB代码】.rar

12-03

1.版本：matlab2014a/2019b/2024b 2.附赠案例数据可直接运行。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

遗传算法重新配置配电网络（IEEE 33和69总线系统.zip