
spark
qq_21355765
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Tachyon:Spark生态系统中的分布式内存文件系统
Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 本文将先向读者介绍Tachyon在Spark生态系统中的使用, 也将分享百度转载 2017-11-10 10:07:32 · 223 阅读 · 0 评论 -
spark结构化数据处理:Spark SQL、DataFrame和Dataset
本文讲解Spark的结构化数据处理,主要包括:Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容。本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际,并且Spark 2.0的预览版本也已发布许久),因此请随时关注Spark SQL官方文档以了解最新信息。 文中使用Scala对转载 2017-11-08 10:52:47 · 1609 阅读 · 0 评论 -
Spark sc.textFile(...).map(...).count() 执行完整流程
Transform 和Action的来源 一般刚接触Spark 的同学,都会被告知这两个概念。Transform就是RDD的转换,从一个RDD转化到另一个RDD(也有多个的情况)。 Action则是出发实际的执行动作。 标题中的map就是一个典型的tansform操作,看源码,无非就是从当前的RDD构建了一个新的MapPartitionsRDD def map[U: ClassT转载 2017-11-10 14:42:20 · 533 阅读 · 0 评论 -
parallelize中指定partition个数的详解
val rdd = sc.parallelize(List(1,2,3,4,5,6,7),3)生成RDD的时候,RDD中的partition是如何决定的 def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T]原创 2017-11-20 10:35:39 · 2461 阅读 · 0 评论 -
Spark源码编译与导入IDEA调试
最近闲来,下载了spark源码编译调试一下,看看最新的东西。。。 一、下载源码 地址:http://spark.apache.org/downloads.html 选择源码包下载 https://archive.apache.org/dist/spark/spark-2.3.1/spark-2.3.1.tgz 二、环境准备 1、一个Linux系统环境 2、在Linux系统上安装J...原创 2018-08-16 17:17:04 · 1407 阅读 · 2 评论