
Spark
BrownWong
None
展开
-
Spark运行及入门
1. 交互式运行Spark(shell)进入spark目录To launch Pyspark,we need to use sudo bin/pyspark(你不一定需要加sudo)To launch spark of scala version, use sudo bin/spark-shell2. 日志设置我们需要在conf目录下创建一个名为log4j.properties的文件来管理日原创 2016-10-16 01:04:22 · 742 阅读 · 0 评论 -
RDD
1. RDD基础(1) 概述RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD,转化RDD以及调用RDD操作进行求值。Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Java、Scala 中任意类型的对象,甚至可以包含用户自定义的对象。(2) 创建RDD用户可以使原创 2016-10-16 11:45:25 · 4420 阅读 · 0 评论 -
Spark优点
作为 MapReduce 的继承者, Spark 主要有三个优点。首先, Spark 非常好用。由于高级 API 剥离了对集群本身的关注,你可以专注于你所要做的计算本身, 只需在自己的笔记本电脑上就可以开发 Spark 应用。其次, Spark 很快,支持交互式使用和复杂算法。 最后, Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Sp原创 2016-10-15 18:13:41 · 3790 阅读 · 0 评论 -
导论
1. Spark是什么定义: Spark是一个用来实现快速而通用的集群计算的平台。主要特点: 它的主要特点是能够在内存中进行计算,因而速度更快。总的来说: Spark适用于各种各样原先需要多种不同分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。2. 组件Spark 项目包含多个紧密集成的组件。 Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的原创 2016-10-15 19:08:35 · 343 阅读 · 0 评论 -
键值对操作
键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。键值对 RDD 提供了一些新的操作接口(比如统计每个产品的评论,将数据中键相同的分为一组,将两个不同的 RDD 进行分组合并等)。1. 动机Spark 为包含键值对类型的 RDD 提供了一些专有的操作。这些 RDD 被称为 pair RDD 。PairRDD 是很多程序的构成要素,原创 2016-11-05 01:08:25 · 15388 阅读 · 0 评论 -
数据读取与保存
1. 概览Spark支持以下三类常见的数据源:文件格式与文件系统: 对于存储在本地文件系统或分布式文件系统(比如 NFS、HDFS、Amazon S3 等)中的文件格式,包括文本文件、JSON、SequenceFile,以及 protocol buffer,Saprk都支持。结构化数据源: 这里主要指Saprk SQL支持的包括JSON,Apache Hive在内的结构化数据源。数据库,键原创 2016-11-08 15:51:14 · 1625 阅读 · 0 评论