Spark编程基础(一)

本文介绍了Spark的基本概念,包括Spark简介、RDD、SparkContext和RDD操作。RDD作为弹性分布式数据集,可以通过本地文件系统或并行集合创建。文章详细讲解了转换和行动操作,展示了如何在Python中读取、处理和存储数据,包括词频统计的实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark编程基础(Python版)

Spark简介

Spark是一种安全的、经正式定义的编程语言,被设计用来支持一些安全或商业集成为关键因素的应用软件的设计。
Spark具有如下几个主要特点
运行速度快
容易使用
通用性
运行模式多样

RDD是什么

弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算

SparkContext的概念

SparkContext是整个spark的入口,相当于程序的main函数。在我们启动spark的时候,spark已经为我们创建好了一个SparkContext的实例,命名为sc,我们可以直接访问到。
在这里插入图片描述
创建RDD也需要基于sc进行

RDD(弹性的分布式数据集)创建

RDD可以通过两种方式创建:
(1)从本地文件系统中加载数据创建RDD

# 从本地文件系统中加载数据
 lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")
# 从HDFS文件系统中加载数据
 lines = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")
 lines = sc.textFile("/user/hadoop/word.txt")
 lines = sc.textFile("word.txt")

(2)调用SparkContext的parallelize方法,通过并行集合(列表)创建ADD

 nums = [1,2,3,4,5]
 rdd = sc.parallelize(nums)

RDD支持两种操作,一种叫做转化操作(transformation)一种叫做行动操作(action)

转换操作

顾名思义

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值