第二章
2.1 概述
2.1.1 Hadoop 简介
Hadoop 是基于 Java 语言开发的,具有很好的跨平台特性,并且可以部署在廉价地计算机集群中。Hadoop 的核心是 分布式文件系统(HDFS) 和 MapReduce。
HDFS 是针对谷歌文件系统(GFS)的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可很伸缩性,支持大规模数据的分布式存储,其荣誉数据存储的方法很好地保证了数据的安全性。
MapReduce 是针对谷歌的 MapReduce 的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用 MapReduce 来整合分布数文件系统上的数据,可以保证分析和处理数据的高效性。
2.1.3 Hadoop 的特性
- 高可靠性
- 高效性
- 高可扩展性
- 高容错性
- 低成本
- 运行在 Linux 平台上
- 支持多种编程语言
2.2 Hadoop 生态系统
2.3 Hadoop 的安装与使用
安装过程中需要注意的是:在 hadoop 正常启动之后,如果按照上面的教程,在浏览器输入 http://locallhost:50070 无法访问,就将端口改为9870
hadoop3.0之前版本端号是 50070,hadoop 3.0 之后版本端号为9870