
spark
文章平均质量分 84
夜古诚
以笔记的形式,总结“前人”的“果实”。部分开放可见 ……
展开
-
Apache DolphinScheduler 任务调度
Apache DolphinScheduler 是一个大数据调度任务框架。从当前的优快云的GitCode的热度来看,其在2022年2月份排名第6位。那是相当的热门的其是一个云原生的可视化的大数据工作流调度系统,其使命就是致力于解决复杂大数据任务依赖,默认就支持多个大数据任务之间的数据操作的编排。相对于其他的大数据调度框架:azkaban、airflow、xxjob,DolphinScheduler 功能强大了不少!...............原创 2022-06-23 10:49:39 · 558 阅读 · 0 评论 -
spark-submit提交任务参数解析
导读:spark和yarn整合后,可以将Application提交到Yarn上运行,和StandAlone提交模式一样,Yarn也有两种提交模式。 具体: 1. yarn-client提交任务 配置:在spark目录下的spark-env.sh添加Hadoop_HOME的配置目录即可提交yarn 任务,具体步骤如下: export HADOOP_CONF_DIR=$HADOOP_...原创 2018-11-13 18:03:31 · 2514 阅读 · 1 评论 -
Spark 之 Graphx学习笔记
写此博客时,我也是刚接触Spark GraphX,很多东西都一知半解,不过还好对Spark原理有一定的了解。为了,进一步学习:可能你会有很多的手段,比如官网(这个是最直接了当,也是最可靠的方法,但需要你有一定的英语能力),博客等。最近看到了一片博客,写的非常不错,在此以做学习笔记的方式写了这篇博客。以下很多内容来源于优快云博客:千寻千梦:https://blog.youkuaiyun.com/qq_3453...原创 2018-11-19 14:49:50 · 2662 阅读 · 1 评论 -
Spark性能优化指南
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。学习Spark的目的就是,主要就是为了让大数据计算作业的执行速度更快、性能更高。 然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业...原创 2018-12-22 21:02:24 · 1125 阅读 · 1 评论