Spark RDD基础操作详解：从filter、map到collect-优快云博客

Spark RDD基础操作详解：从filter、map到collect

【免费下载链接】spark-py-notebooks Apache Spark & Python (pySpark) tutorials for Big Data Analysis and Machine Learning as IPython / Jupyter notebooks 项目地址: https://gitcode.com/gh_mirrors/sp/spark-py-notebooks

理解RDD基础操作

Apache Spark的核心概念之一是弹性分布式数据集(RDD)，它是Spark中最基本的数据抽象。RDD代表一个不可变、可分区的元素集合，可以并行操作。在Spark编程中，掌握RDD的基本操作是至关重要的。

数据准备

在开始之前，我们需要准备一个数据集。这里使用的是KDD Cup 1999网络入侵检测数据集的10%子集，包含约50万条网络交互记录。这个数据集非常适合用来演示Spark操作，因为它大小适中且内容丰富。

import urllib
f = urllib.urlretrieve ("http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz", "kddcup.data_10_percent.gz")

data_file = "./kddcup.data_10_percent.gz"
raw_data = sc.textFile(data_file)

filter转换操作

filter是Spark中最常用的转换操作之一，它允许我们根据特定条件筛选RDD中的元素。filter接受一个返回布尔值的函数作为参数，只有使函数返回True的元素才会被保留在新的RDD中。

实际应用示例

假设我们想统计数据集中标记为"normal"的正常交互数量：

normal_raw_data = raw_data.filter(lambda x: 'normal.' in x)

from time import time
t0 = time()
normal_count = normal_raw_data.count()
tt = time() - t0
print "There are {} 'normal' interactions".format(normal_count)
print "Count completed in {} seconds".format(round(tt,3))

这段代码会输出类似这样的结果：

There are 97278 'normal' interactions
Count completed in 5.951 seconds

重要概念：惰性求值

值得注意的是，Spark的转换操作（如filter）是惰性的，这意味着它们不会立即执行。只有在调用行动操作（如count）时，Spark才会真正开始计算。这种设计使得Spark可以优化整个执行计划，提高效率。

map转换操作

map是另一个核心转换操作，它允许我们对RDD中的每个元素应用一个函数，从而生成一个新的RDD。map操作在数据转换和清洗中非常有用。

将数据解析为CSV格式

from pprint import pprint
csv_data = raw_data.map(lambda x: x.split(","))
t0 = time()
head_rows = csv_data.take(5)
tt = time() - t0
print "Parse completed in {} seconds".format(round(tt,3))
pprint(head_rows[0])

输出示例：

Parse completed in 1.715 seconds
['0', 'tcp', 'http', 'SF', '181', '5450', '0', '0', '0', '0', '0', '1', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '8', '8', '0.00', '0.00', '0.00', '0.00', '1.00', '0.00', '0.00', '9', '9', '1.00', '0.00', '0.11', '0.00', '0.00', '0.00', '0.00', '0.00', 'normal.']

使用预定义函数

除了lambda表达式，我们也可以使用预定义的函数：

def parse_interaction(line):
    elems = line.split(",")
    tag = elems[41]
    return (tag, elems)

key_csv_data = raw_data.map(parse_interaction)
head_rows = key_csv_data.take(5)
pprint(head_rows[0])

这将创建一个键值对RDD，其中键是交互类型标签，值是整个记录。

collect行动操作

collect是一个行动操作，它会将RDD中的所有元素收集到驱动程序中。由于这可能导致内存问题（特别是对于大型RDD），因此需要谨慎使用。

基本用法

t0 = time()
all_raw_data = raw_data.collect()
tt = time() - t0
print "Data collected in {} seconds".format(round(tt,3))

输出示例：

Data collected in 17.927 seconds

综合应用示例

结合前面学到的操作，我们可以收集所有标记为"normal"的交互：

# 从文件获取数据
data_file = "./kddcup.data_10_percent.gz"
raw_data = sc.textFile(data_file)

# 解析为键值对
key_csv_data = raw_data.map(parse_interaction)

# 筛选normal键的交互
normal_key_interactions = key_csv_data.filter(lambda x: x[0] == "normal.")

# 收集所有
t0 = time()
all_normal = normal_key_interactions.collect()
tt = time() - t0
normal_count = len(all_normal)
print "Data collected in {} seconds".format(round(tt,3))
print "There are {} 'normal' interactions".format(normal_count)

性能考量

从上面的例子可以看出，不同的操作有不同的性能特征：

filter操作相对较快，因为它只需要评估每个元素的布尔条件
map操作的速度取决于转换函数的复杂度
collect操作通常是最耗时的，因为它需要将所有数据传输到驱动程序

在实际应用中，应该尽量避免不必要的collect操作，特别是处理大数据集时。通常，我们可以在集群上使用其他行动操作（如count、reduce等）完成大部分计算，只收集最终结果。

总结

本文介绍了Spark RDD的三种基本但重要的操作：

filter转换：用于根据条件筛选数据
map转换：用于对数据进行转换和清洗
collect行动：用于将数据收集到驱动程序

理解这些基本操作是掌握Spark编程的基础。在实际项目中，这些操作通常会组合使用，形成复杂的数据处理流水线。记住转换操作是惰性的，只有在调用行动操作时才会真正执行，这一特性使得Spark能够高效地优化整个计算过程。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考