
Spark
文章平均质量分 84
Spark 介绍、环境搭建、属性配置、sql 语法、操作介绍
半吊子Kyle
这个作者很懒,什么都没留下…
展开
-
Hive|Spark 查看表的各种信息
Hive | Spark 中的 SHOW 语法你了解多少?不能错过的好文章原创 2022-07-10 19:15:35 · 7480 阅读 · 4 评论 -
Hive|Spark 函数详解
Hive|Spark 函数详解基本比较运算函数=、==!!=、<><=><、<=>、>=特殊比较运算函数BETWEENIS [NOT] NULLIN基本数学运算函数+基本比较运算函数 注意: 在比较比较运算函数中, 对于一些可能存在为 NULL 的情况, 一定要增加逻辑判断和处理 =、==expr1 = expr2 - 如果 expr1 equals expr2 则返回 true , 否则返回 false ① 为 NULL 的情况如果 expr1原创 2022-04-10 16:19:17 · 1694 阅读 · 0 评论 -
Spark Sql 相关设置及调优
Spark Sql 相关设置及调优设置笛卡尔积设置 shuffle 的并行度禁止精度损失设置笛卡尔积在 SQL 中如果 2 个大表做笛卡尔积,那么数据量会暴增,应尽量避免。如果是两个小表则不会造成这种情况,反而可以便捷生成表-- 设置支持笛卡尔积-- Spark 2.x 版本中默认不支持笛卡尔积操作,需要手动开启set spark.sql.crossJoin.enabled=true;设置 shuffle 的并行度因为笛卡尔积会产生 shuffle,默认的 shuffle 结果分区是 200原创 2021-11-08 11:16:15 · 2869 阅读 · 0 评论 -
Spark 数据倾斜的解决方案
Spark 数据倾斜的解决方案Shuffle 时导致的数据倾斜第一种解决方案:使用 Hive ETL 对数据进行预处理Shuffle 时导致的数据倾斜当 Shuffle 时出现了数据倾斜,我们一般的问题排查步骤① 查看 WEB-UI 页面,查看各个 Job 的 Stage 中 Task 的执行情况,是否有明显执行时间过长的情况② 如果任务报错,查看对应的日志异常堆栈信息,是否有内存溢出的情况第一种解决方案:使用 Hive ETL 对数据进行预处理如果 Spark 的计算数据是从 Hive 的原创 2021-10-16 22:27:23 · 273 阅读 · 0 评论 -
Hive 中的临时表使用对比
Hive 中的临时表使用对比说明(使用 spark-sql 测试)unionwith...ascreate temporary viewcache table说明(使用 spark-sql 测试)需求说明:假设我们现在有 3 张表,如下图所示,分别为 tra_stock_info 、tra_stock_info_ss 、 tra_stock_info_sz我们现在需要将 tra_stock_info_ss 和 tra_stock_info_sz 的数据插入到 tra_stock_info 表中,那么原创 2021-09-27 18:15:15 · 4116 阅读 · 0 评论 -
Hive/Spark SQL使用案例
Hive/Spark 函数使用示例求 TOPN:开窗函数求天数:datediff() 函数求每个学生的成绩都大于...系列:开窗 / 分组表转置/行转列系列:concat_ws 函数【关键字:Hive SQL 面试、Hive SQL 练习、Hive SQL 函数示例、Spark SQL 面试、Spark SQL 练习、Spark SQL 函数示例】如有错误,欢迎留言指出!求 TOPN:开窗函数需求说明求出每个部门工资最高的前三名员工,并计算这些员工的工资占所属部门总工资的百分比建表和数据原创 2021-09-13 11:18:16 · 1516 阅读 · 0 评论 -
RDD 中的函数
RDD 中的函数Transformation 函数Action 函数基本函数分区操作函数重分区函数聚合函数关联函数关联函数排序函数RDD(Resilient Distributed Dataset)Spark 的核心是 RDD,即弹性分布数据集,通过 RDD 我们可以像操作本地集合一样以函数式编程的方式操作 RDD 这个分布式数据集,进行各种并行计算,RDD 中很多处理数据函数与列表 List 中相同与类似RDD 的操作(函数、算子)分类RDD Programming Guide - Spark原创 2021-08-18 23:05:53 · 1220 阅读 · 0 评论 -
Spark SQL CLI 的配置和使用
Spark SQL CLI 的配置和使用使用说明Spark SQL CLI 读取和存储数据在本地Spark SQL CLI 读取和存储数据在 HDFS关键字:【spark-sql 配置 HDFS 、spark sql cli 配置 HDFS、spark-sql 保存数据到 HDFS】使用说明Distributed SQL Engine - Spark 2.4.5 Documentation (apache.org)The Spark SQL CLI is a convenient tool to原创 2021-08-30 09:50:09 · 1680 阅读 · 0 评论 -
Spark 环境搭建-Local
文章目录模式说明搭建准备安装及配置启动及测试模式说明① 本地模式(Local Mode)将 Spark 应用程序中任务 Task 运行在一个本地 JVM Process 进程中,通常开发测试使用② 集群模式(Cluster Mode)将 Spark 应用程序运行在集群上,比如 Hadoop YARN 集群,Spark 自身集群 Standalone 及 Apache Mesos 集群模式分类说明场景Spark Standalone 集群模式Spark自带,典型的 Mate原创 2021-08-16 16:47:42 · 342 阅读 · 0 评论 -
Spark 环境搭建-Standalone
Spark 环境搭建-Standalone模式说明① 本地模式(Local Mode)将 Spark 应用程序中任务 Task 运行在一个本地 JVM Process 进程中,通常开发测试使用② 集群模式(Cluster Mode)将 Spark 应用程序运行在集群上,比如 Hadoop YARN 集群,Spark 自身集群 Standalone 及 Apache Mesos 集群模式分类说明场景Spark Standalone 集群模式Spark自带,典型的 Mater原创 2021-08-16 19:31:01 · 406 阅读 · 0 评论 -
环境搭建-Spark on YARN
环境搭建-Spark on YARN模式说明搭建准备安装及配置启动及测试模式说明Spark Standalone Mode - Spark 2.4.5 Documentation (apache.org)Spark Standalone 集群是 Master-Slaves 架构的集群模式,和大部分的 Master-Slaves 结构集群一样,存在着 Master 单点故障的问题,该模式基于 Zookeeper 实现 HA搭建准备环境准备云服务器 3 台node1/172.17.0.8原创 2021-08-16 22:41:15 · 2055 阅读 · 0 评论 -
Spark 环境搭建-Standalone HA
Spark 环境搭建-Standalone HA模式说明搭建准备安装及配置启动及测试模式说明Spark Standalone Mode - Spark 2.4.5 Documentation (apache.org)Spark Standalone 集群是 Master-Slaves 架构的集群模式,和大部分的 Master-Slaves 结构集群一样,存在着 Master 单点故障的问题,该模式基于 Zookeeper 实现 HA当 Active 的 Master 出现故障时,另外的一个 Stan原创 2021-08-16 20:54:15 · 391 阅读 · 0 评论 -
Spark on Hive 环境配置
Spark on Hive 环境配置搭建准备配置修改启动及测试Hive Tables - Spark 3.1.2 Documentation (apache.org)搭建准备① 准备 Hadoop 和 Hive 环境Hadoop 介绍及集群搭建参考Hive 搭建参考② 准备 Spark on Yarn 环境环境搭建-Spark on YARN_配置修改修改 hive-site.xml 配置文件:在 3 台 Spark 服务器上都操作# 进入 Spark 安装目录cd /opt/serv原创 2021-08-26 11:21:01 · 4500 阅读 · 0 评论 -
Spark-Shell 及 Spark-Submit
Spark-Shell 及 Spark-SubmitSpark-Shell说明操作命令Spark-Submit说明操作命令常用参数示例Spark-Shell说明spark-shell 是 Spark 自带的交互式 Shell 程序,方便用户进行交互式编程,用户可以在该命令行下可以用 scala 编写 spark 程序,适合学习测试时使用操作命令# 直接启动,默认 --master local[*]spark-shell# 在本地模拟 N 个线程来运行当前任务spark-shell --ma原创 2021-08-17 15:17:11 · 1430 阅读 · 0 评论