Spark之pyspark转换函数

原创

已于 2022-03-29 17:42:16 修改 · 557 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #spark

于 2021-03-12 18:39:57 首次发布

文章目录

0、前言
1、filter(func)
2、map(func)
3、flatMap(func)
4、groupByKey()
5、reduceByKey(func)

0、前言

本文列举5个常见的RDD转换函数：

操作	含义
filter(func)	筛选出满足函数func的元素，并返回一个新的数据集
map(func)	将每个元素传递到函数func中，并将结果返回一个新的数据集
flatMap(func)	与map类似，但每个输入元素都可以映射到0个或多个输出结果
groupByKey()	应用于(K, V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集
reduceByKey(func)	应用于(K, V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中每个值是将每个key传递到函数func中进行聚合后的结果

1、filter(func)

word.txt:
Hadoop is good
Spark is better
Spark is fast

# sc.textFile('word.txt')是创建RDD对象的一种方式，可以是打开本地文件，可以是打开HDFS文件，也可以是打开云端文件
# 另一种创建RDD对象的方式是并行化数组或集合，eg：sc.parallelize([1, 2, 3, 4, 5])
lines = sc.textFile('word.txt')
linesWithSpark = lines.filter(lambda line : 'Spark' in line)
# collect是动作函数，作用是返回RDD中的数据，以list形式
linesWithSpark.collect()

输出：

Spark is better
Spark is fast

2、map(func)

eg1:

rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = rdd1.map(lambda x:x + 10)
rdd2.collect()

输出：

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

米法·

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

PySpark入门三：常用的函数(上)

默默经营自己的小世界

08-30

770

一、起步在jupyter notebook中如何使用pyspark？打开Anaconda Prompt 并使用pip 安装好pyspark第三方库。 pip install pyspark 二、常用函数 2.1 导包 # 导包 from pyspark import SparkContext # 创建会话 sc = SparkContext.getOrCreate() 2.2 创建RDD # 创建RDD 有两种方式 # 1. parallelize()创建。这种方式创建的是ParallelCo

Spark之pyspark动作函数

TSzero的博客

03-17

450

本文列举几个常见的pyspark动作函数，这里有几个常见的转换函数

参与评论您还未登录，请先登录后发表或查看评论

Spark相关变换函数

骚政

09-23

402

Spark-Rdd-Transform 函数相关注解返回指向新rdd的指针，在rdd之间创建依赖关系。每个rdd都有计算函数和指向父RDD的指针。 map() //对每个元素进行变换，应用变换函数 //(T)=&g...

spark转换算子

最新发布

lqlj2233的博客

05-07

451

在 Apache Spark 中，转换算子（Transformation）是用于对 RDD（弹性分布式数据集）进行转换操作的函数。这些操作是惰性的，即在调用转换算子时，Spark 并不会立即执行计算，而是记录下转换操作的轨迹，等待行动算子触发时才真正执行。

SparkRDD函数详解（一）--RDD转换函数

chen7588693的博客

01-17

2346

1.什么是RDD RDD(Resilient Distributed Dataset),弹性分布式数据集，Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Ja...

PySpark 之 map

Gscsd的博客

12-08

6970

1. pyspark 版本 2.3.0版本 2. 官网 map(f,preservesPartitioning=False)[source] Return a new RDD by applying a function to each element of this RDD. 中文翻译：通过对这个RDD的每...

Spark函数详解系列--RDD基本转换

hellozhxy的博客

08-20

350

http://www.cnblogs.com/MOBIN/p/5373256.html 摘要： RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一...

PySpark之Spark RDD的重要函数

feizuiku0116的博客

02-08

623

七、RDD的重要函数一、基本函数 map 函数： map(f:T=>U) : RDD[T]=>RDD[U]，表示将 RDD 经由某一函数 f 后，转变为另一个RDD。 flatMap 函数： flatMap(f:T=>Seq[U]) : RDD[T]=>RDD[U])，表示将 RDD 经由某一函数 f 后，转变为一个新的 RDD，但是与 map 不同，RDD 中的每一个元素会被映射成新的 0 到多个元素（f 函数返回的是一个序列 Seq）。 filter 函数： f

Spark 程序与PySpark交互流程及Spark-Submit相关参数说明

weixin_46027122的博客

08-10

587

spark-submit 这个命令是我们spark提供的一个专门用于提交spark程序的客户端, 可以将spark程序提交到各种资源调度平台上: 比如说 local(本地), spark集群,yarn集群, 云上调度平台(k8s …指的在将Spark任务提交到集群(YARN, Spark集群为主)的时候,提供两种提交部署方案: client模式 , cluster模式。Spark On Yarn的本质: 指的将Spark程序提交到Yarn集群中, 通过yarn进行统一的调度运行操作。

PySpark3：pyspark.sql.functions常见的60个函数

weixin_44458771的博客

11-20

1493

PySpark3：pyspark.sql.functions常见的60个函数

pyspark一些简单常用的函数方法

malingyu的专栏

09-21

759

但是有时候由于类别数太多，达到几千万上亿，如对推荐的MF中ID的编码，此时仍然使用stringIndex容易内存溢出，因为这几千万个字符要进行序列化并传播需要较大的机器内存。这时候我们就需要使用其他的方法来进行编码了。通过上面的代码可以将sparse vector转换为scipy sparse matrix，具体地——scipy csr matrix。当数据维度非常大且稀疏的时候，使用sparse matrix/tensor能极大的减少内存占用，是一个非常实用的方法。需要注意的是，udf中的。

PySpark简单使用(二)——map方法（算子）使用

qq_42120843的博客

06-12

1163

和我们预期不一致，我们希望就只有。

spark的translate和action

fly1056601582的博客

07-05

665

spark的translate和action 之前对spark的一直进行学习和操作，最近准备系统的学习一下的。对于translate和action有一定了解，但是不是很全面。所以在这篇博客中整理一下的。 translate 对于一个rdd的操作函数名目的示例结果备注 map() 将函数应用于RDD中的每个元素，将返回值构成新的RDD...

【转】Spark SQL 函数全集

qq_41919284的博客

05-07

984

放丢失，转载，感谢大神！ https://blog.youkuaiyun.com/liam08/article/details/79663018 Summary

pyspark 条件,使用pyspark进行条件聚合

weixin_29798379的博客

12-23

213

consider the below as the dataframea b c d eafrica 123 1 10 121.2africa 123 1 10 321.98africa 123 2 12 43.92africa 124 2 12 43.92usa 121 1 12 825.32usa 121 1 1...

Spark/PySpark中map与flatMap

lquarius的博客

10-10

2906

map将函数作用到数据集的每一个元素上，生成一个新的分布式的数据集(RDD)返回 map函数的源码： def map(self, f, preservesPartitioning=False): """ Return a new RDD by applying a function to each element of this RDD. >>> rdd = sc.parallelize(["b", "a", "c"]) >>> s

java调用spark的api_PySpark 是否会调用 Java api，而 Java api 又会在 Apache Spark 中调用 scala api？...

weixin_30423205的博客

02-28

143

我试图了解 Apache PySpark 的工作方式。视频：Spark Python API-Josh Rosen 说 Python API 是 Java API 的包装。在内部它调用 Java 方法。查看时间戳记 6.41该文档说 Java API 是 Scala API 的包装器我有几个问题，如下所述：这是否意味着对于 PySpark 中的 map，reduce 等每种方法，它将在 Java ...

spark应用程序转换_apache-spark – 使用Scala转换PySpark RDD

weixin_32616931的博客

01-11

230

长话短说没有支持的方式来做这样的事情.不要在生产中尝试这个.你被警告过了.一般情况下,Spark不会将Py4j用于驱动程序上的某些基本RPC调用,也不会在任何其他计算机上启动Py4j网关.当需要它时(主要是MLlib和SQL的某些部分),Spark使用Pyrolite来序列化在JVM和Python之间传递的对象.API的这一部分是私有(Scala)或内部(Python),因此不适用于一般用途.理论...

pyspark udf函数

08-26

PySpark中的UDF（User Defined Function，用户自定义函数）是一种特殊类型的函数，允许我们在Spark DataFrame或SQL中使用自定义的Python函数作为转换操作。UDF可以用于在列级别上执行自定义的计算或转换。要创建一个UDF函数，可以使用`pyspark.sql.functions.udf`方法，并将Python函数作为参数传递给它。然后，可以将UDF应用于DataFrame的一列或多列。下面是一个简单的示例，展示了如何使用PySpark的UDF函数： ```python from pyspark.sql import SparkSession from pyspark.sql.functions import udf # 创建SparkSession spark = SparkSession.builder.getOrCreate() # 示例函数：将字符串转换为大写 def to_upper(s): return s.upper() # 注册UDF to_upper_udf = udf(to_upper) # 创建示例DataFrame data = [("John", 25), ("Alice", 30), ("Bob", 35)] df = spark.createDataFrame(data, ["name", "age"]) # 应用UDF到'name'列 df.withColumn("name_upper", to_upper_udf(df["name"])).show() ``` 在上面的示例中，我们首先定义了一个Python函数 `to_upper`，它将字符串转换为大写。然后，我们使用`udf`方法将该函数转换为UDF，并将其命名为`to_upper_udf`。最后，我们将UDF应用于DataFrame的'name'列，并在新列'name_upper'中显示结果。通过使用UDF函数，我们可以使用自定义的Python代码来扩展和定制Spark的功能，以满足特定的需求。希望这个例子能帮助你了解如何在PySpark中使用UDF函数。