pandas与pyspark操作对照索引

Dr Pepper

已于 2024-02-26 20:54:17 修改

阅读量369

点赞数 4

分类专栏： IPMNcode 文章标签： pandas

于 2024-02-26 20:37:04 首次发布

本文链接：https://blog.youkuaiyun.com/qq_43984062/article/details/136307333

版权

1.Pyspark简介

Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于Apache Hadoop MapReduce仅执行批处理并且缺乏实时处理功能，因此它开始出现。因此，引入了Apache Spark，因为它可以实时执行流处理，也可以处理批处理。

Apache Spark是Scala语言实现的一个计算框架。为了支持Python语言使用Spark，Apache Spark社区开发了一个工具PySpark。我们可以通过Python语言操作RDDs

RDD (Resiliennt Distributed Datasets)

•RDD = 弹性 + 分布式 Datasets

1）分布式，好处是让数据在不同工作节点并行存储，并行计算

2）弹性，指的节点存储时，既可以使用内存，也可以使用外存

•RDD还有个特性是延迟计算，也就是一个完整的RDD运行任务分成两部分：Transformation和Action

分布式：可以分布在多台机器上进行并行处理
弹性：计算过程中内存不够时，它会和磁盘进行数据交换
基于内存：可以全部或部分缓存在内存中
只读：不能修改，只能通过转换操作生成新的 RDD

df = spark.read.csv(path, sep=';')#读取
df.coalesce(n).write.mode('overwrite').csv(path, sep=';')#df转写为csv文件，to csv
df.show(3)  #用来显示前3行

列指定分区（不一定用得到

df.partitionBy("department","state").write.mode('overwrite').csv(path, sep=';')

df.summary()一样
df.describe()一样

groupBy的B：注意小写变大写
（pandas中用来groupby的列名会自动成为索引，需要reset_index才能重新显示成列，而spark就不用管，就正常）

df.groupBy('department').agg({
   'employee': 'count', 'salary':'max', 'age':'mean'})

agg：在 PySpark 中，agg之后，列名会在结果dataframe中被重命名，需要.alias(‘原始列名’)给他改回去。
需要pyspark重命名列名

df.groupBy('department').agg(F.count('employee').alias('employee'), F.max('salary').alias('salary'