1.Pyspark简介
Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于Apache Hadoop MapReduce仅执行批处理并且缺乏实时处理功能,因此它开始出现。因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。
Apache Spark是Scala语言实现的一个计算框架。为了支持Python语言使用Spark,Apache Spark社区开发了一个工具PySpark。我们可以通过Python语言操作RDDs
RDD简介
RDD (Resiliennt Distributed Datasets)
•RDD = 弹性 + 分布式 Datasets
1)分布式,好处是让数据在不同工作节点并行存储,并行计算
2)弹性,指的节点存储时,既可以使用内存,也可以使用外存
•RDD还有个特性是延迟计算,也就是一个完整的RDD运行任务分成两部分:Transformation和Action
Spark RDD的特性:
分布式:可以分布在多台机器上进行并行处理
弹性:计算过程中内存不够时,它会和磁盘进行数据交换
基于内存:可以全部或部分缓存在内存中
只读:不能修改,只能通过转换操作生成新的 RDD
2. pandas与pyspark操作对照
1)读写文件read_csv,to_csv
df = spark.read.csv(path, sep=';')#读取
df.coalesce(n).write.mode('overwrite').csv(path, sep=';')#df转写为csv文件,to csv
df.show(3) #用来显示前3行
列指定分区(不一定用得到
df.partitionBy("department","state").write.mode('overwrite').csv(path, sep=';')
2) 统计describ,agg,groupBy
df.summary()一样
df.describe()一样
groupBy的B:注意小写变大写
(pandas中用来groupby的列名会自动成为索引,需要reset_index才能重新显示成列,而spark就不用管,就正常)
df.groupBy('department').agg({
'employee': 'count', 'salary':'max', 'age':'mean'})
agg:在 PySpark 中,agg之后,列名会在结果dataframe中被重命名,需要.alias(‘原始列名’)给他改回去。
df.groupBy('department').agg(F.count('employee').alias('employee'), F.max('salary').alias('salary'