
Spark介绍和实践
介绍内存计算引擎Spark的内容,以及实战项目的实践
kxiaozhuk
这个作者很懒,什么都没留下…
展开
-
Spark介绍(七)PySpark
一、PySpark简介 PySpark 是 Spark 为 Python 开发者提供的 API ,位于 $SPARK_HOME/bin 目录,其依赖于 Py4J。 Spark2.0之后的初始化,会在spark安装pyspark的模块,直接在spark/bin/启动pyspark是会报错的: 原因是因为spark2.0默认安装的Python是3.6的,而“Spark &l...原创 2019-01-02 11:48:07 · 799 阅读 · 0 评论 -
Spark介绍(五)Spark MLlib
一、Spark MLlib简介MLlib(Machine Learnig lib) 是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器MLlib支持本地的密集向量和稀疏向量,并且支持标量向量(LabledPoint )。MLlib同时支持本地矩阵和分布式矩阵,支持的分布式矩阵分为RowMatrix、IndexedRowMatrix、CoordinateMatr...原创 2018-09-14 11:05:31 · 570 阅读 · 0 评论 -
Spark介绍(六)SparkR
一、SparkR简介SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中,SparkR实现了分布式的data frame,支持类似查询、过滤以及聚合的操作(类似于R中的data frames:dplyr),但是这个可以操作大规模的数据集。 DataFr...原创 2018-09-14 11:07:59 · 8482 阅读 · 0 评论 -
Spark介绍(四)SparkSQL
一、SparkSQL发展历程SparkSQL的前身是Shark, Shark是伯克利实验室Spark生态环境的组件之一,它修改了下图Hive所示的右下角的内存管理、物理计划、执行三个模块,并使之能运行在Spark引擎上,从而使得SQL查询的速度得到10-100倍的提升2014年6月1日Shark项目和SparkSQL项目的主持人Reynold Xin宣布:停止对Shark的开发,团队将...原创 2018-09-14 11:03:39 · 451 阅读 · 0 评论 -
Spark介绍(三)SparkStreaming
一、SparkStreaming简介SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。 ...原创 2018-09-14 11:00:28 · 3098 阅读 · 0 评论 -
Spark介绍(二)RDD
一、RDD介绍弹性分布式数据集,RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD的特点:1.来源:一种是从持久存储获取数据(并行化集合或Hadoop数据集),另一种是从其他RDD生成2.只读:状态不可变,不能修改3.分区:支持元素根据 Key 来分区 ( Partitioning ) ,保存到多个结...原创 2018-09-14 10:56:10 · 457 阅读 · 0 评论 -
Spark介绍(一)简介
一、Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有以下特点。1.运行速度快:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数...原创 2018-09-14 10:51:50 · 21120 阅读 · 0 评论