文章目录
1 背景
1.1 Hadoop生态
Google于 2003~2006 年相继发表了三篇论文:“Google File System”、“Google MapReduce”、“Google Bigtable”,将大数据的处理技术带进了大众视野,而 2006 年开源项目 Hadoop 的出现,则标志着大数据处理技术普及的开始,大数据技术真正开始走向大众。
Hadoop最初指的是分布式文件系统 HDFS 和 MapReduce 计算框架,但是它一路高歌猛进,在此基础之上像搭积木一样快速发展成为一个庞大的生态(被称为 Hadoop 生态圈),其中包括 Hive、HBase、Spark 等数十种框架。
而在大数据分析场景的解决方案中,传统的关系型数据库很快就被 Hadoop 生态圈所取代,BI 领域就是其中之一。像传统关系型数据库所构建的数据仓库,就被以 Hive 为代表的大数据技术所取代,数据查询分析的手段更是层出不穷,Spark、Impala、Kylin 等框架百花齐放。
Hadoop 发展至今,早已上升成为大数据的代名词&#