
spark
文章平均质量分 88
哇哇小仔
时空数据挖掘
展开
-
Spark (Python版) 零基础学习笔记(一)—— 快速入门
由于Scala才刚刚开始学习,还是对python更为熟悉,因此在这记录一下自己的学习过程,主要内容来自于spark的官方帮助文档,这一节的地址为:点击打开链接文章主要是翻译了文档的内容,但也在里边加入了一些自己在实际操作中遇到的问题及解决的方案,和一些补充的小知识,一起学习。环境:Ubuntu 16.04 LTS,Spark 2.0.1, Hadoop 2.7.3, Python翻译 2016-11-12 06:20:44 · 9570 阅读 · 1 评论 -
Spark (Python版) 零基础学习笔记(五)—— Spark RDDs编程
RDD基础概念创建RDD 创建RDD的方法: 1.载入外部数据集 2.分布一个对象的集合前边几次的笔记已经提到过多次了,因此,这里只列出几个注意事项: 1.利用sc.parallelize创建RDD一般只适用于在测试的时候使用,因为这需要我们将整个数据集放入一台机器的内存中。因此,除了我们学习使或者测试时,很少使用。 2.更通用的方法是从外部存储系统上加载数据创建RDDSpark支持两种R原创 2016-11-29 11:39:47 · 3396 阅读 · 0 评论 -
Spark (Python版) 零基础学习笔记(二)—— Spark Transformations总结及举例
Saprk Transformations总结及应用举例(Python版本)原创 2016-11-13 06:51:52 · 3327 阅读 · 0 评论 -
Spark (Python版) 零基础学习笔记(三)—— Spark Actions总结及举例
Saprk Actions总结及应用举例(Python版本)原创 2016-11-20 10:31:31 · 1867 阅读 · 0 评论 -
Spark (Python版) 零基础学习笔记(四)—— Spark概览
结合了《Learning Spark: Lightning-Fast Big Data Analysis》和官方2.02版本的Spark Document总结了关于Spark概念性的一些知识。帮助大家对Spark有一个总体上的认知一、Spark的两个核心概念:RDD:弹性分布式数据集Shared variables:共享变量二、Spark组件:Spark集成了很多组件。Spark的内核是一个计原创 2016-11-23 08:48:23 · 3021 阅读 · 0 评论