关于Hadoop，hive，spark的理解

原创已于 2022-02-18 15:13:26 修改 · 716 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据仓库

于 2022-02-18 15:03:45 首次发布

这篇博客介绍了Hadoop作为分布式系统基础架构，Hive作为基于Hadoop的数据仓库工具，提供类似SQL的查询语言HiveQL来处理HDFS上的数据。同时提到了Spark作为强大的计算引擎，用于加速数据处理和分析。

1.hadoop
分布式系统基础架构
2.hive
Hive是基于Hadoop的数据仓库工具，可以对存储在HDFS上的文件数据集进行查询和分析处理。Hive对外提供了类似于SQL语言的查询语言 HiveQL，在做查询时将HQL语句转换成MapReduce任务，在Hadoop层进行执行
3.spark
计算引擎