
SparkSql
文章平均质量分 85
SparkSqlSparkSqlSparkSqlSparkSql
风情客家__
简述需要300字以内_(¦3」∠)_
展开
-
在k8s环境下部署Spark分布式计算平台
Spark是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。转载 2023-01-06 13:45:47 · 1435 阅读 · 0 评论 -
Hive,Hive on Spark&Spark on Hive 和SparkSQL简介及区别分析
参考文章:Spark on Hive & Hive on Spark,傻傻分不清楚Hive,Hive on Spark和SparkSQL区别1. Hive on MapreduceHive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结1.2 Hive on Mapreduce执行流程执行流程详细解析Step 1:UI(use原创 2021-04-16 16:42:36 · 516 阅读 · 0 评论 -
RDD、DataFrame和DataSet的区别
参考文章:RDD、DataFrame和DataSet的区别SparkSQL_Dataset和DataFrame简介一、Spark SQL简介Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。它具有以下特点:能够将 SQL 查询与 Spark 程序无缝混合,允许您使用 SQL 或 DataFrame API 对结构化数据进行查询; 支持多种开发语言; 支持多达上百种的外部数据源,包括 Hive,Avro,Parquet,ORC,JSON 和 JDBC 等; 支持转载 2020-09-08 11:26:19 · 4803 阅读 · 0 评论