
spark
xiwh
这个作者很懒,什么都没留下…
展开
-
spark配置文件和优化
配置文件讲解: 属性 默认值 修改值 指定shuffle分区: spark.sql.shuffle.partitions 200 5 忽略损坏的文件 spark.sql.files.ignoreCorruptFiles false true ...原创 2020-10-04 16:56:52 · 490 阅读 · 0 评论 -
spark概念梳理
大数据技术和 Spark 概述通过实例学习 DataFrame、SQL、Dataset 等 Spark 的核心 API了解 Spark 的低级 API 实现,包括 RDD 以及 SQL 和 DataFrame 的执行过程了解 Spark 如何在集群上运行Spark 集群和应用程序的调试、监控、和调优学习 Spark 强大的流处理引擎——结构化流处理学习 MLlib 并了解如何应用它解决包括分类和推荐等多种实际问题“这本书是所有 Spark 开发者的必读物,介绍了许多其他地方...原创 2020-10-01 18:08:21 · 394 阅读 · 0 评论 -
spark-core笔记
二.rdd高级应用 1.认知rdd缓存的优点 RDD缓存机制 2.掌握RDD缓存策略的选择。 3.认知共享变量的使用。 4.掌握Spark的运行架构。5.宽依赖对比窄依赖相比于宽依赖,窄依赖对优化更有利 ,主要基于以下两点。(1)宽依赖往往对应着shuffle操作(shuffle就是将同一个节点的数据进行分区排序,分发给各个子rdd),需要在运行过程中将同一个父RDD的分区传入到不同的子RDD分区中,中间可能涉及多个节点之间的数据传输;而窄依...原创 2020-09-16 19:14:47 · 182 阅读 · 0 评论 -
spark 学习总结 (第三章)
第 2 章介绍了 Apache Spark 的基础知识。我们讨论了转换和动作,以及 Spark 如何惰性执行转换 操作的 DAG 图以优化 DataFrame 上的物理执行计划。我们还讨论了如何将数据组织到分区中, 并为处理更复杂的转换设定多个阶段。在第三章中我们将介绍庞大的 Spark 生态系统,并了解 Spark 中提供的包括流数据处理和机器学习等一些更高级的概念和工具。第 3 章 S...原创 2020-01-14 10:57:06 · 195 阅读 · 0 评论