
大数据
文章平均质量分 88
哇哇小仔
时空数据挖掘
展开
-
Spark (Python版) 零基础学习笔记(五)—— Spark RDDs编程
RDD基础概念创建RDD 创建RDD的方法: 1.载入外部数据集 2.分布一个对象的集合前边几次的笔记已经提到过多次了,因此,这里只列出几个注意事项: 1.利用sc.parallelize创建RDD一般只适用于在测试的时候使用,因为这需要我们将整个数据集放入一台机器的内存中。因此,除了我们学习使或者测试时,很少使用。 2.更通用的方法是从外部存储系统上加载数据创建RDDSpark支持两种R原创 2016-11-29 11:39:47 · 3396 阅读 · 0 评论 -
Spark (Python版) 零基础学习笔记(二)—— Spark Transformations总结及举例
Saprk Transformations总结及应用举例(Python版本)原创 2016-11-13 06:51:52 · 3327 阅读 · 0 评论 -
Spark (Python版) 零基础学习笔记(三)—— Spark Actions总结及举例
Saprk Actions总结及应用举例(Python版本)原创 2016-11-20 10:31:31 · 1867 阅读 · 0 评论 -
Spark (Python版) 零基础学习笔记(四)—— Spark概览
结合了《Learning Spark: Lightning-Fast Big Data Analysis》和官方2.02版本的Spark Document总结了关于Spark概念性的一些知识。帮助大家对Spark有一个总体上的认知一、Spark的两个核心概念: RDD:弹性分布式数据集 Shared variables:共享变量 二、Spark组件:Spark集成了很多组件。Spark的内核是一个计原创 2016-11-23 08:48:23 · 3021 阅读 · 0 评论