hadoop一些术语

本文深入解析Hadoop的核心组件MapReduce、HDFS及其相关工具Pig、Hive、Zookeeper、Oozie等,详细阐述了它们在大数据处理中的角色与功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

老苏今天也来说说hadoop一些术语,方便大家学习用。

MapReduce

Hadoop的核心:大数据处理的”发动机“,最重要的创新是当处理一个大数据查询时,能将该大数据的请求分解并在运行的多个节点中进行处理。

HDFS:

1、对每个节点的数据访问。

2、当hadoop集群服务器出现错误时候,整个计算过程并不会终止。同时HDFS可保障在整个集群中发送故障错误时的数据冗余。

PIg和Hive: 

 Pig是一种编程语言,可加载数据、表达转换数据以及存储最终结果。

      Hive:数据仓库的角色。Hive添加数据的结构在HDFS上,并允许使用类似SQL语法进行行数据查询。主要用于静态的结构以及需要经常分析的工作。

 Hive和Pig为HBase提供高层语言支持,使得在HBase上进行数据统计处理变得简单。

Hive 具备友好SQL查询与繁多数据库的理想结合点,数据工具通过JDBC或ODBC 数据驱动程序连接。

HBase、Sqoop、Flume:

HBase 作为面向列的数据库运行在HDFS之上。HBase以Google BigTable为蓝本,它利用MapReduce来处理内部的海量数据。

Sqoop:功能主要是从关系数据库导入数据到Hadoop,并可直接导入到HFDS和Hive。

Flume:设计旨在直接流数据或日志数据导入HDFS

       Zookeeper、Oozie、  Ambari、   Apache Whirr 

       Zookeeper: 协调工作的成员,随着计算节点的增多,集群成员需要彼此同步并了解去那里访问服务和如何配置。

       Oozie:提供管理工作流程和依赖的功能,并无需开发人员编写定制的解决方案。

       Ambari:旨在将监控和管理等核心功能加入Hadoop。它可以帮助系统管理员部署和配置Hadoop,升级集群以及监控服务。还可以通过API集成与其他系统管理工具。

      Apache Whirr 云服务的类库,可提供高度的互补性。

     Mahout

       Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。

.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值