👉👉首先我们需要知道Hadoop的基本概念,究竟是什么,还要了解可以用他来做什么,让我们一起接下来学习:
一、Hadoop是什么?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。
Hadoop以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。
二、Hadoop能解决什么问题?
1、海量数据存储
HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)来访问数据,适合那些有着超大数据集(large data set)的应用程序,它由n台运行着DataNode的机器组成和1台(另外一个standby)运行NameNode进程一起构成。每个DataNode 管理一部分数据,然后NameNode负责管理整个HDFS 集群的信息(存储元数据)。
2、资源管理,调度和分配
Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统 一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨 大好处。
三、了解集群,分布式的概念🧐
什么是集群,什么是分布式?(多台服务器参与运行)
集群: 多台服务器共同完成相同的业务,就是一个集群.
分布式: 多台服务器共同完成不同的业务就是分布式.
安装部署层面说
单机部署
使用一台服务器安装所有服务
集群部署
使用多台服务器安装对应分布式服务