大数据学习系列文章:大数据-博客专栏
今天在学习极客时间专栏:《从0开始学大数据》
从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统的介绍了大数据的发展历史,之前我对这些只是一知半解。
今天我们常说的大数据技术,其实起源于 Google 在 2004 年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。
两年后的 2006 年,Doug Cutting 将这些大数据相关的功能从 Nutch 中分离了出来,然后启动了一个独立的项目专门开发维护大数据技术,这就是后来赫赫有名的 Hadoop,主要包括 Hadoop 分布式文件系统 HDFS 和大数据计算引擎 MapReduce。
编写 Pig 脚本虽然比直接 MapReduce 编程容易,但是依然需要学习新的脚本语法。于是 Facebook 又发布了 Hive。Hive 支持使用 SQL 语法来进行大数据计算,比如说你可以写个 Select 语句进行数据查询,然后 Hive 会把 SQL 语句转化成 MapReduce 的计算程序。
在 Hadoop 早期,MapReduce 既是一个执行引擎,又是一个资源调度框架,服务器集群的资源调度管理由 MapReduce 自己完成。但是这样不利于资源复用,也使得 MapReduce 非常臃肿。于是一个新项目启动了,将 MapReduce 执行引擎和资源调度分离开来,这就是 Yarn。2012 年,Yarn

本文概述了大数据技术的历史,从Google的三篇开创性论文到Hadoop、Hive、Yarn、Spark和Flink的演变。Hadoop作为分布式文件系统和计算引擎,促进了大数据处理的普及,而Hive则通过SQL接口简化了大数据查询。Yarn的出现将资源调度与执行引擎分离,提高了效率。Spark作为批处理和流计算框架,以及Flink的流处理能力,进一步丰富了大数据处理场景。
最低0.47元/天 解锁文章
1174

被折叠的 条评论
为什么被折叠?



