PySpark编程实战:广告点击预测
1. PySpark编程基础
1.1 Spark基本数据结构
在Spark中,弹性分布式数据集(Resilient Distributed Datasets,RDD)是主要的数据结构。它具有以下三个主要特点:
- 弹性(Resilient) :当任何节点发生故障时,受影响的分区将被重新分配到健康的节点,从而使Spark具有容错能力。
- 分布式(Distributed) :数据驻留在集群中的一个或多个节点上,可以并行操作。
- 数据集(Dataset) :包含一组分区数据及其值或元数据。
不过,在Spark 2.0版本之后,DataFrame取代了RDD成为主要的数据结构。DataFrame也是分布式的数据集合,但它被组织成命名列,类似于关系型数据库中的表或Python pandas库中的DataFrame对象。虽然当前版本的Spark仍然支持RDD,但强烈建议使用DataFrame进行编程。
1.2 创建Spark会话
Spark程序的入口是创建一个Spark会话。可以使用以下代码创建:
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("test") \
.getOrCreate()
如果在PySpa
超级会员免费看
订阅专栏 解锁全文
472

被折叠的 条评论
为什么被折叠?



