大数据学习框架及指南

本文详细介绍了大数据处理的关键技术框架,包括Hadoop的HDFS、YARN、MapReduce,以及Zookeeper、Hive、Hbase、Flume、Spark、Kafka和Storm等。这些工具覆盖了数据采集、存储、计算、查询和挖掘等多个环节,为大数据处理提供了一整套解决方案。文章还提及了Ambari用于集群管理和监控,以及Hadoop的高可靠性、可扩展性和容错性特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop生态圈
这里写图片描述
一 ,采集,数据从哪里来?主要包括flume等;

一 ,存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;

二,计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、storm等;

三,查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主要解决随机查询,Olap技术主要解决关联查询;

四,挖掘,海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、mahout、spark等;

Apache Ambari是一种基于Web的工具,界面友好,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop等,可用于生产环境。
这里写图片描述

学习路线:
这里写图片描述

1、Hadoop是一个能够对大量数据进行分布式处理的软件框架,他以一种可靠、高效、可伸缩的方式进行数据处理。具有高可靠性、高扩展性、高效性、高容错性、低成本的特点。
这里写图片描述
2、Hadoop hdfs–分布式文件系统
将文件分成多个block,分散存储到不同的节点上,并提供多副本,保证数据容错性能。

  • 主从结构

    • 主节点,可以有2个: namenode
    • 从节点,有很多个: datanode
  • namenode负责:管理整个集群。维护文件系统的目录结构

  • <
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值