
spark
荣晓
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据治理内容
业务发展中,存在大量无用待下线的数据表,及生命周期设定过长的数据表,未做整治,梳理出长期未被使用/引用模型,及生命周期不符合当前标准模型,未分区,空表,文件数,文件格式等(通过数据血缘模型或平台捞出)由于早期业务快速扩张,对元数据把控不到位,导致成熟期出现大量不合规模型。定期扫描:不规范的模型分层引用、模型跨ods层依赖,空表、未更新表等。烟囱模型及时下线:烟囱表及时切换/下线,提升核心数据模型复用率。建设管控:大的需求进行模型评审。解决:数据标准:元数据补充。原创 2023-08-10 15:32:34 · 297 阅读 · 0 评论 -
spark3使用zstd压缩
spark想不进行文件切分,文件是多大就起几个task,参数设置。写出的文件使用zstd压缩,spark3才开始支持。原创 2023-07-12 17:37:07 · 696 阅读 · 0 评论 -
Spark读取parquet文件的切分逻辑
1.实际使用结果记录,申请资源 --num-executors 200 --executor-memory 8G --executor-cores 2。1.实际使用结果记录,申请资源 --num-executors 100 --executor-memory 8G --executor-cores 1。//读取文件时打包成最大的partition大小 256M,对应一个block大。//通过 fs 获取文件的大小bytes,// 总共读取的大小。// 文件打开开销,每次打开文件最少需要读取的字节 4M。原创 2023-07-11 09:02:36 · 610 阅读 · 0 评论 -
spark读取hive表,获取分区字段
spark.table(hiveTable).sparkSession.catalog.listColumns(hiveTable).filter(x => x.isPartition).map(_.name)原创 2023-05-30 08:43:18 · 670 阅读 · 0 评论 -
spark的内存管理
val memoryManager: MemoryManager = UnifiedMemoryManager(conf, numUsableCores) --统一内存管理,(动态内存管理)val usableMemory = systemMemory - reservedMemory --可用内存。val maxMemory = getMaxMemory(conf){–能够使用的最大内存。spark中shuffle的写入磁盘的数量。shuffle中落盘的数量 M。M为maptask的数量。原创 2023-05-23 19:47:14 · 453 阅读 · 0 评论 -
spark应用程序的执行
sparkconf --配置对象,基础配置sparkEnv --环境对象,通讯环境SchedulerBackend --通讯后台 住哟啊用于和Executor之间进行通讯TaskScheduler – 任务调度器 任务调度DAGScheduler – 阶段调度器 阶段划分1.rdd依赖。原创 2023-05-22 19:18:43 · 572 阅读 · 0 评论 -
spark源码 spark on yarn环境的创建
ApplicationMaster.sparkContextInitialized(sc) --当前的初始化环境已经完成了,让ApplicationMaster 中的val sc = ThreadUtils.awaitResult 继续往下执行。driver线程执行的过程中,注册应用程序是阻塞的,当反射执行main方法的时候,去创建SparkContext并完成初始化之后,通知注册应用程序继续执行,当executor反向注册之后,然后通知action算子继续执行。原创 2023-05-16 19:45:07 · 621 阅读 · 0 评论 -
spark 报错
spark 将数据写入hdfs 报 Container killed by YARN for exceeding memory limits. 8.5 GB of 8 GB physical memory used. Consider boosting spark.yarn.executor.memoryO。原创 2023-05-08 15:52:48 · 278 阅读 · 0 评论 -
sparksql 将array[int]转为array[long]
sparksql 集合类型转换原创 2023-05-05 14:27:22 · 338 阅读 · 1 评论 -
sparksql执行报错grows beyond 64 KB
报错内容Code of method “apply_2(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClass(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClass(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClassSpecificUnsafeProjection;Lorg/apache/spark/sql/catalyst原创 2023-03-29 10:49:59 · 554 阅读 · 0 评论 -
spark-submit 配置和实际申请到的yarn的资源是如何计算
spark-submit 申请yarn资源计算规则原创 2023-02-24 11:10:05 · 490 阅读 · 1 评论 -
spark处理struct格式的数据
val spark = SparkSession.builder().master("local[*]").appName(this.getClass.getSimpleName).getOrCreate() val sc = spark.sparkContext val fs = FileSystem.get(sc.hadoopConfiguration) sc.setLogLevel("error") import spark.implicits._ v..原创 2021-07-27 11:07:50 · 1871 阅读 · 0 评论 -
sparkstreaming 读取kafka数据,写入hdfs,使用saveAsHadoopFile
package com.vivo.ai.streamingimport java.time.format.DateTimeFormatterimport java.time.{Instant, LocalDateTime, ZoneId}import com.vivo.ai.streaming.AppstoreVideoInfo.coverTimeStampToStringimport org.apache.hadoop.mapred.lib.MultipleTextOutputFormati原创 2020-07-10 18:08:21 · 1833 阅读 · 4 评论 -
spark 写出的文件中出现{ “empty“:false, “traversableAgain“:true }
问题:scala语言spark将数据转成一个json写出去的时候,写出的文件中出现{ “empty”:false, “traversableAgain”:true }原因:JSON.toJSONString(map)转为string时出现问题,转为java的集合类就可以了JSON.toJSONString(map.asJava)//导包import collection.JavaConverters._...原创 2020-07-10 16:15:16 · 2941 阅读 · 0 评论 -
spark报错illegal cyclic reference involving object InterfaceAudience
代码中使用了两次1.第一次使用val fs = FileSystem.get(sparkSession.sparkContext.hadoopConfiguration)第二次使用2.sparkSession.sparkContext.parallelize(list)改为下述一次生成,多次调用:va sc=sparkSession.sparkContextval fs = File...原创 2019-10-29 13:47:38 · 2784 阅读 · 0 评论