pandas与pyspark操作对照索引

1.Pyspark简介

Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于Apache Hadoop MapReduce仅执行批处理并且缺乏实时处理功能,因此它开始出现。因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。

Apache Spark是Scala语言实现的一个计算框架。为了支持Python语言使用Spark,Apache Spark社区开发了一个工具PySpark。我们可以通过Python语言操作RDDs

RDD简介

RDD (Resiliennt Distributed Datasets)

•RDD = 弹性 + 分布式 Datasets

1)分布式,好处是让数据在不同工作节点并行存储,并行计算

2)弹性,指的节点存储时,既可以使用内存,也可以使用外存

•RDD还有个特性是延迟计算,也就是一个完整的RDD运行任务分成两部分:Transformation和Action

Spark RDD的特性:

分布式:可以分布在多台机器上进行并行处理
弹性:计算过程中内存不够时,它会和磁盘进行数据交换
基于内存:可以全部或部分缓存在内存中
只读:不能修改,只能通过转换操作生成新的 RDD

2. pandas与pyspark操作对照

1)读写文件read_csv,to_csv

df = spark.read.csv(path, sep=';')#读取
df.coalesce(n).write.mode('overwrite').csv(path, sep=';')#df转写为csv文件,to csv
df.show(3)  #用来显示前3行

列指定分区(不一定用得到

df.partitionBy("department","state").write.mode('overwrite').csv(path, sep=';')

2) 统计describ,agg,groupBy

df.summary()一样
df.describe()一样

groupBy的B:注意小写变大写
(pandas中用来groupby的列名会自动成为索引,需要reset_index才能重新显示成列,而spark就不用管,就正常)

df.groupBy('department').agg({
   'employee': 'count', 'salary':'max', 'age':'mean'})

agg:在 PySpark 中,agg之后,列名会在结果dataframe中被重命名,需要.alias(‘原始列名’)给他改回去。
需要pyspark重命名列名

df.groupBy('department').agg(F.count('employee').alias('employee'), F.max('salary').alias('salary'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值