- 学习内容Hadoop(入门)重点搭集群
1.大数据概念
·大数据(bigdata),IT行业术语,
是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
·主要解决,海量级的存储、海量数据的分析计算、统一资源管理调度
·HDFS-海量级的存储 MapReduce-海量数据的分析计算 YARN-统一资源管理调度
·Hadoop的特点(4V)
volume(大量) velocity(高速) variable(多样) value(低价值密度)
2.Hadoop是什么
Hadoop是一个由Apache基金会所开发的分布式系统基础架构
主要解决,海量数据的存储、分析计算问题
广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈
201.Hadoop发展史
Hadoop的底层就来自于Google在大数据方面的三篇论文
GFS-->HDFS
MapReduce-->MR
BigTable-->HBase
202.Hadoop三大发行版本
Apache 版本最原始(最基础)的版本,对于入门学习最好。
Cloudera 在大型互联网企业中用的较多。
Hortonworks 文档较好
203.Hadoop的优势(4高)
01.高可靠:Hadoop底层维护多