Spark
王 大 柱
一生很短,人很渺小,游历四方,看遍山河,珍惜眼前人。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkSql随笔(2)
通过Sql来调用 使用SparkSql随笔(1)中的数据 创建表 查询 条件查询 排序查询 分页查询原创 2020-01-02 19:42:03 · 183 阅读 · 0 评论 -
SparkSql随笔(1)
概述 Spark为结构化数据处理提供 的模块Spark sql的编程模块 通过DataFrame来操作数据,操作方式是同过SQL语句 sparkSql有哪些优势? 内存列存储 DataFrame(数据框,数据表) DataFrame本质是一个RDD,底层是通过转化RDD来操作的,所以可以分布式Sql查询 SQLContext 上下文的对象,与SparkContext类似 数据转变DataFr...原创 2020-01-02 19:06:34 · 202 阅读 · 0 评论 -
Spark MLlib随笔--最小二乘法(1)
最小二乘法 它通过最小化误差的平方和寻找数据的最佳函数匹配 如下图所示,对于某个数据集(xi, yi) (i=0,1,…,n),我们需要找到一条趋势线(图中的虚线),能够表达出数据集(xi, yi)这些点所指向的方向。 用一个直线函数表示这条趋势线: Y=aX+b 如果这个样本点位于趋势线的上侧,在残差ξi>0,反之则ξi<0,如果样本点位于趋势线上则ξi=0。 将带有残差的直线函数...原创 2019-12-29 20:31:16 · 413 阅读 · 0 评论 -
Spark MLlib随笔--Statistics类(2)
Statistics已经封装好统计量相关的方法 ,如何用scala写出? 练手小题 欧氏距离 /** * 求:两点间的欧式距离 */ object Driver { def main(args: Array[String]): Unit = { val p1 = Array(4,1,2) val p2 = Array(2,5,8) //(4-2)² + (1-5)² ...原创 2019-12-29 19:33:56 · 204 阅读 · 0 评论 -
Spark MLlib随笔--Statistics类(1)
Statistics类 数理统计中,基本统计量包括数据的平均值、方差,这是一组求数据统计量的基本内容。在MLlib中,统计量的计算主要用到Statistics类库 方法 colStats:以列为基础计算统计量的基本数据 corr:对两个数据集进行相关系数计算,根据参量的不同,返回值格式有差异 import org.apache.spark.mllib.linalg.Vectors import...原创 2019-12-29 19:19:33 · 432 阅读 · 0 评论 -
Spark MLlib随笔(1)----向量类型
MLlib使用的本地化存储类型是向量,这里的向量主要由两类构成:稀疏型数据集(spares)和密集型数据集(dense) MLlib库的基本类型:向量类型 Vector 主要向Spark提供一组可进行操作的数据集合 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.linalg.V...原创 2019-12-29 17:54:22 · 253 阅读 · 0 评论 -
Spark中的共享变量
由于函数在不同的节点上并发执行,但每个内部的变量有不同的作用域,不能相互访问,所以有时会不太方便,Spark提供了两类共享变量供编程使用——广播变量和计数器。 广播变量 特点:只读(一般设置val 修改更新值没有意义),在所有节点上都以一份缓存 使用: object Test01 { def main(args: Array[String]): Unit = { val conf = ...原创 2019-12-29 16:06:34 · 294 阅读 · 0 评论 -
Spark随笔--核心数据结构RDD
概念 RDD(弹性分布式数据集),可以看作是一种集合类型(Array,List),可以通过RDD来操作和存储数据; 但是与普通的集合是有区别的: - ①RDD有分区机制,可以分布式的进行数据集的处理,从而提高处理速度 - ②RDD有容错机制,数据丢失可以恢复 - 如何创建RDD 方式一:将普通集合(Array,List)转化为RDD ①sc.makeRDD(普通集合,分区数) 例如:s...原创 2019-12-26 16:40:45 · 373 阅读 · 0 评论 -
Spark随笔--基本概念
基本概念 *spark是一种分布式计算框架:可以离线处理+实时流处理(随着实时到达 进行实时处理)* 比较MapReduce hadoop中的MapReduce:离线批处理 MR中进行业务工作时 会产生Shuffle过程(消耗资源严重) MR在Shuffle过程中会产生不必要的排序,导致性能下降 -Spark在设计时:引入缓存机制,可以对结果进行缓存减少Shuffle的产生,和不必要的排序 ...原创 2019-12-26 10:28:31 · 175 阅读 · 0 评论
分享