
spark
文章平均质量分 71
qq_39425845
这个作者很懒,什么都没留下…
展开
-
spark-on-yarn
Spark On Yarn搭建及各运行模式说明https://www.cnblogs.com/rmxd/p/12273395.html◦1、单机模式◦2、伪集群模式◦3、集群模式1---spark自带的Cluster Manager的Standalone client模式◦4、集群模式2---spark自带的Cluster Manager的standalone cluster模式◦5、集群模式3---基于Yarn的ResourceManager的Client模式◦6、集群模式4----基于.原创 2020-08-26 17:07:24 · 128 阅读 · 0 评论 -
spark 与hadoop 之比较
spark 与hadoop 之比较一、存储结构 1、hadoop :hadoop文件系统下的split(split是逻辑数据单元,block存储物理单元,split可能会跨block存储);2、spark:使用基于内存的弹性分布式数据集RDD,进行数据基本运算和缓存(RDD是对象,肯定存储在内存中); 二、编码模式 1、hadoop :Map + Reduce(原创 2017-07-10 14:26:32 · 2871 阅读 · 0 评论 -
RDD的五大特性
rdd 5大特性原创 2017-07-19 19:29:42 · 836 阅读 · 0 评论 -
Spark工作流程简述
1、构建Spark Application的运行环境(启动SparkContext),SparkContext向 资源管理器(Standalone、Mesos或YARN)注册并申请Executor运行资源;2、资源管理器分配Executor资源并启动StandaloneExecutorBackend,Executor 运行情况将随着心跳发送到资源管理器上;3、SparkCo转载 2017-07-19 20:51:23 · 2028 阅读 · 0 评论 -
SparkContext初始化
一、SparkConf概述1. SparkContext需要传入SparkConf来进行初始化,用于维护Spark的配置属性;2. SparkConf内部使用ConcurrentHashMap来维护所有的配置;3. SparkConf提供的setter方法返回的是this,所有它允许使用链式来设置属性。二、SparkContext的初始化1. 复制SparkConf配置转载 2017-07-19 21:35:34 · 1062 阅读 · 0 评论 -
beeline结果输出格式设置(outputformat=csv)
进行beeline结果输出并解析时遇到一个字符串格式问题,正确操作如下:beeline -u $url --silent=true --showHeader=false --outputformat=csv --color=true -e "$hql" 格式参数:--outputformat=[table/vertical/csv/tsv/dsv/csv2/tsv2]1、输出格式一定原创 2018-01-31 10:23:08 · 13916 阅读 · 0 评论 -
spark本地开发环境搭建
1、开发工具idea下载https://www.jetbrains.com/idea/download/#section=windows2、scala插件下载http://plugins.jetbrains.com/files/1347/43504/scala-intellij-bin-2018.1.3.zip?updateId=43504&pluginId=13473、spark-2.2...原创 2018-04-28 11:42:09 · 252 阅读 · 0 评论