一、大数据
1、大数据要解决的四大核心问题:存储,计算,查询和挖掘
二、什么是Hadoop?
1、Hadoop是什么?
Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。-w3school
Apache开发的一种分布式机构,由HDFS(Hadoop Distributed File System) 和 MapReduce 组成,HDFS负责存储,MapReduce负责计算。-优快云
HDFS是 Google File System的开源实现,MapReduce 是 Google MapReduce的开源实现。
HDFS 和 MapReduce是完全分离的,并不是没有HDFS 就不能进行 MapReduce计算。
Hadoop的诞生突破了传统数据文件系统的单击模式,可以使得数据可以跨越不同的机器与设备,并且用一个路径去管理不同平台上的数据。
2、Hadoop历史?
起源于2002年Apache Nutch项目,到2008年,hadoop已成为Apache的顶级项目。