一、Hadoop项目架构
Hadoop框架是用来解决数据离线批处理问题的框架,其中最核心的是HDFS和MapReduce,HDFS是架构在Hadoop之上的分布式文件系统,MapReduce是架构在Hadoop之上用来做计算的框架。
hadoop两个核心:HDFS和MapReduce
用途:解决分布式存储和分布式存储。
特点:高可靠性、高效性、可扩展性、成本低(普通PC机都能构建集群)
应用:Google、Facebook等,用于日志处理、批处理、离线处理
架构:离线分析:MR、Hive、Pig
实时查询:Hbase
BI分析:Mahout
分布式文件存储系统HDFS
底层数据源
Hadoop项目结构: