
大数据-Spark
文章平均质量分 85
spark原理、Spark应用、Spark源码分析
house.zhang
这个作者很懒,什么都没留下…
展开
-
Spark Livy 指南及livy部署访问实践
背景:Apache Spark 是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中,它提供了两种方式进行数据处理,一是交互式处理:比如用户使用spark-shell,编写交互式代码编译成spark作业提交到集群上去执行;二是批处理,通过spark-submit 提交打包好的spark 应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息,并打通集群网络访问权限,这种方式存在增加client所在节点资源使用负担和故障发生的可能性,同时client节点原创 2022-05-05 18:09:31 · 3771 阅读 · 4 评论 -
Spark简单介绍
spark是什么?spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。spark组件图1 spark软件栈SparkSQL:提供了类sql方式操作结构化半结构化数据。SparkStreaming:提供了近乎实时的流式数据处理,与stor...原创 2018-11-24 23:18:22 · 3552 阅读 · 1 评论 -
五种Spark大数据任务部署的方式
Deploying 部署提交应用spark home的bin目录下有个spark-submit脚本是用来在集群模式下启动应用的。通过统一的接口方式可用于所有spark支持的集群管理器,而不需要特别为每种进行格外的配置。打包应用的依赖如果你的代码依赖于其它项目,你需要和你的应用打包在一起,以便于分发代码到集群中。对于python应用,可以使用spark-submit的 --py-files参...原创 2018-11-25 22:55:41 · 577 阅读 · 0 评论