
Spark
文章平均质量分 68
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点
阿龙先生啊
懂点大数据运维, 会写两三行代码,自学了一些 docker, kubernetes。博客主要分享大数据、Linux、云原生相关知识。 目前职位大数据工程师,长远打算做个会敲代码的厨子。
展开
-
【分布式计算框架】Spark RDD 的 Shuffle 和分区
只有 型的 RDD 才会有 Shuffle 操作, 例如 , 但是有一个特例, 就是 算子可以对任何数据类型 Shuffle,早期版本 Spark 的 Shuffle 算法是 , 后来改为 , 更适合大吞吐量的场景在本地模式下,访问 http://localhost:4040 之所以会有 8 个 Tasks, 是因为在启动的时候指定的命令是 , 这样会生成 1 个 Executors, 这个 Executors 有 8 个 Cores, 所以默认会有 8 个 Tasks, 每个 Core原创 2022-07-05 19:53:39 · 1052 阅读 · 1 评论 -
Job aborted due to stage failure: Total size of serialized results of 3 tasks (1074.3 MB) is bigger
Spark任务运行报错如下:21/10/09 15:49:31 INFO DAGScheduler: Job 0 failed: collect at TrackDataSourceWrite.scala:190, took 94.206171 sorg.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 3 tasks (1074.3 MB) is...原创 2021-10-09 18:27:00 · 2013 阅读 · 0 评论 -
org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow
运行Spark任务报错如下:21/10/09 14:56:32 ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 4)org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 93. To avoid this, increase spark.kryoserializer.buffer....原创 2021-10-09 17:34:40 · 1872 阅读 · 0 评论 -
SparkSQL核心笔记(一)----DataSet 和 DataFrame 剖析
Spark SQL使用Hive解析SQL生成AST语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖Hive执行计划和优化交给优化器Catalyst内建了一套简单的SQL解析器, 可以不使用HQL, 此外, 还引入和DataFrame这样的DSL API, 完全可以不依赖任何Hive的组件Shark只能查询文件,Spark SQL可以直接将查询作用于RDD, 这一点是一个大进步原创 2020-04-04 00:55:23 · 1908 阅读 · 0 评论