
spark
杨白龙
好好学技术
展开
-
Spark的存储分析过程(一)
在我们的Spark的存储当中有如下的类是起到至关重要的重要的 1,BlockManager:运行在每个节点(driver和executors)上的管理器,它提供用于将本地和远程的块放入和取回到各种存储(内存,磁盘和堆外)的接口,只有调用了initialize()方法之后这个对象才有效 如果这个BlockManager运行在我们的Driver上,那么这个BlockManager主要是负责管理整个J翻译 2017-10-19 12:33:27 · 1026 阅读 · 0 评论 -
SparkSession创建的二种方式
1, SparkSession.builder() .master(“local”) .appName(“Word Count”) .config(“spark.some.config.option”, “some-value”) .getOrCreate()2,SparkSession.builder().getOrCreate()原创 2017-10-11 11:41:49 · 3817 阅读 · 0 评论 -
Shuffle的读写操作(一)
下面是我们的ShuffleMapTask当中的runTask的方法,在这个方法当中主要是调用了我们的HashShuffleWrite当中的write方法来进行具体的写出操作 /** * */ override def runTask(context: TaskContext): MapStatus = { // Deserialize the RDD using the b原创 2017-10-28 12:28:28 · 830 阅读 · 0 评论 -
存储级别和存储调用
下面是StorageLevel类的代码解释 /** * :: DeveloperApi :: * Flags for controlling the storage of an RDD. Each StorageLevel records whether to use memory, * or ExternalBlockStore, whether to drop the RDD to dis翻译 2017-10-22 10:21:48 · 910 阅读 · 0 评论 -
Java的常用的代码块(一)
import java.util.ArrayList; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.util.Map.Entry; import java.util.Set;原创 2017-10-23 19:41:19 · 361 阅读 · 0 评论