
spark
文章平均质量分 69
kiraraLou
这个作者很懒,什么都没留下…
展开
-
【Spark】Spark运行时产生的临时目录的问题
今日发现下游用户spark 任务在我们的大数据集群上的 client 节点 /tmp 目录下产生了60G大量的临时文件。触发监控告警。原创 2022-12-14 14:38:53 · 3721 阅读 · 1 评论 -
【Spark】Spark DataFrame – 获取超过 20 行和列的完整值
当我们使用spark-sql命令来执行任务,返回结果后,有些字段无法显示完全,并且只能最多显示20条数据。原创 2022-11-14 17:11:08 · 1811 阅读 · 0 评论 -
【spark】记录一次 spark sparkstreaming 使用命令行提交任务在Yarn集群模式无法正常消费kerberos kafka数据的问题
最近在提交spark程序到yarn消费kerberos认证方式的kafka数据。由于配置文件 相对/绝对路径不正确配置遇到了报错,这里整理并记录一下。以上的问题,说白了就是在任务真正的执行节点,并没有成功从绝对路径中加载到对应的配置文件。因为别的节点并没有这些配置文件。所以需要用--flies将我们需要用到的配置都加载到yarn服务上,然后yarn来将这些配置问价分发到真正执行任务的目录上。所以我们用的一些参数中指定的配置也须写成相对路径。和。.........原创 2022-08-18 17:20:05 · 4455 阅读 · 1 评论 -
【spark】Cluster deploy mode is not applicable to Spark shells
前言使用CDH5.13 集成 apche spark2.4.2 使用spark-shell命令报错。spark配置spark-defaults.conf文件如下:spark.master yarnspark.deploy.mode clusterspark.submit.deployMode clusterspark.eventLog.enabled truespark.eventLo原创 2021-11-29 18:19:34 · 3121 阅读 · 0 评论 -
【spark】spark historyserver OOM解决方案
前言:我们的spark historyserver 有时会频繁宕机。报错日志:21/11/18 16:18:36 ERROR util.SparkUncaughtExceptionHandler: Uncaught exception in thread Thread[spark-history-task-0,5,main]java.lang.OutOfMemoryError: GC overhead limit exceeded21/11/18 16:18:37 INFO server.Abst原创 2021-11-18 17:19:43 · 1791 阅读 · 0 评论 -
总结《Spark技术内幕》第三章 RDD实现详解
文章目录RDD实现详解1. 什么是RDD1.1 RDD的创建1.2 RDD的转换1.3 RDD缓存1.4 RDD的checkpoint2.RDD的转换和DAG的生成RDD实现详解RDD是Spark最基本也是最根本的数据抽象,本质将数据保存在内存中,并且高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。1. 什么是RDDRDDDD弹性分布式内存数据集,只读,分区记录的集合,RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。RDD含有如何从其原创 2021-01-21 15:20:43 · 290 阅读 · 0 评论 -
总结《Spark技术内幕》第一章 Spark简介
文章目录Spark简介1.1 spark 是什么?1.2 spark的优点?1.3 spark架构1.3.1 角色说明:1.3.2 用户程序从最开始的提交到最终的计算执行,需要经历以下几个阶段:Spark简介1.1 spark 是什么?spark是大数据分析引擎,集批处理,实时流计算处理分布式数据集。Spark实现了一种分布式的内存抽象,称为弹性分布式数据集(Resilient Distributed Dataset,RDD)。它支持基于工作集的应用,同时具有数据流模型的特点:自动容错、位置感知性调原创 2021-01-19 11:35:04 · 253 阅读 · 1 评论