1.发展历史
Google三篇论文(FS、MapReduce、BigTable)---> Hadoop(Doug Cutting) ---> Pig脚本(Yahoo)--->Hive将sql转化mapreduce(Facebbok) ---> spark.[离线计算] storm、sparkStreaming、Flink的实时流追加计算
2.大数据技术架构

备注:
- Yarn分布式集群资源调度框架。
- Oozie大数据调度系统。
- HDFS/GFS分布式文件系统。
- Impala、Cloudera发布的运行在HDFS上的sql引擎。
- Sqoop专门用将关系数据库中的数据批量导入导出到Hadoop。
- Canal可以实时将关系数据库的数据导入到Hadoop。
- Flume大规模日志分布式收集。
-
TensorFlow,开源的机器学习系统
-
Spark MLlib,Spark机器学习算法库
-
Mahout,Hadoop机器学习算法库

本文从Google的三大论文出发,回顾了大数据技术的发展历程,介绍了Hadoop、Spark等关键技术,并概述了包括Yarn、HDFS在内的大数据技术架构。此外还提及了Impala、Sqoop等工具以及TensorFlow、Spark MLlib等机器学习相关组件。
7544

被折叠的 条评论
为什么被折叠?



