
spark
等你下课_
努力起码可以大器晚成
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark学习一
ransformation返回值还是一个RDD。它使用了链式调用的设计模式,对一个RDD进行计算后,变换成另外一个RDD,然后这个RDD又可以进行另外一次转换。这个过程是分布式的。Action返回值不是一个RDD。它要么是一个Scala的普通集合,要么是一个值,要么是空,最终或返回到Driver程序,或把RDD写入到文件系统中转换(Transformations)(如:map...原创 2019-09-19 22:16:42 · 145 阅读 · 0 评论 -
spark运行模式
1.Local:本地模式(单机),使用n个线程。 2.Local Cluster:本地伪分布式模式,可以开启多个虚拟节点。 3.standalone模式:部署Spark到相关节点。 4.mesos模式:部署Spark与mesos到相关节点。粗粒度、细粒度:按需分配。 5.yarn模式:部署Spark与yarn到相关节点。粗粒度:提前分配好资源。local...原创 2019-09-19 22:45:25 · 157 阅读 · 0 评论 -
Spark的基本工作流程
https://my.oschina.net/134596/blog/3038296转载 2019-09-19 23:13:58 · 516 阅读 · 0 评论 -
cache和persist区别
cache()是persist()的特例,persist可以指定一个StorageLevel(缓存级别)cache的缓存级别是memory_only区别就是cache默认是在内存中存储的,而persist可以设置存储的级别:如何选择一种最合适的持久化策略默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大,可以绰绰有余地存放下整个RDD的所有数据。...原创 2019-09-20 11:05:17 · 1783 阅读 · 0 评论 -
spark repartition和coalesce的区别和用法
repartition(numPartitions:Int):RDD[T]def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { coalesce(numPartitions, shuffle = true) }coalesce(numPartition...原创 2019-09-20 11:33:40 · 305 阅读 · 0 评论 -
spark简介
http://www.sohu.com/a/270444235_494938原创 2019-09-20 19:58:59 · 173 阅读 · 0 评论