
spark
文章平均质量分 67
LIUERTOU
这个作者很懒,什么都没留下…
展开
-
spark-spark程序与pyspark交互-submit的参数-RDD的特性-初识对象数据集-算子类型
spark程序与pyspark交互流程交互的流程图说明spark-submit想关的参数spark-submit.sh脚本的作用用于将spark程序提交到指定的资源调度平台上进行运行,并且在提交过程中,可以对资源设置相关的配置信息基本参数--master :spark-core的内容(核心部分)RDD的基本介绍背景说明1)在早期的计算模型: 单机模型 比如: pandas , mysql 依赖于单个节点的性能 适用于: 少量数据集统计分析的处理原创 2021-11-08 22:36:11 · 1941 阅读 · 0 评论 -
spark-pyspark实现基本词频计算-ssh远程测试-spark on yarn配置/启动-pyspark两种部署方式
基于pycharm中pyspark的使用pycharm实现wordcount原创 2021-11-07 21:24:59 · 1944 阅读 · 0 评论 -
pyspark-spark基本的概念-spark本地模式-集群模式-HA模式
spark的基本概念spark基本概念spark就是一款大规模数据的统一分析引擎,基于内存计算,整个spark核心的数据架构是RDD(弹性分布式数据集,认为是列表list),由加州大学柏克莱发表,后贡献给了Apachespark框架中各个节点的通信采用的模块为:netty框架为什么说spark的运行效率比mr快一点?spark核心: 弹性分布式数据集(RDD), 借鉴了MR的分布式并行计算的思想, 但是解决了MR存在的一些问题, 会将中间的结果存储在内存中(如果存储不下, 也可以原创 2021-11-06 09:09:42 · 1527 阅读 · 0 评论