Pyspark 常用命令

本文介绍了使用PySpark进行数据处理的三个关键步骤:读取文件并定义模式,添加和重命名列,以及表连接操作。涵盖了从CSV文件读取数据、使用自定义模式、选择特定列、添加新列、重命名现有列以及执行内连接等实用技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. read files

# define schema
from pyspark.sql.types import StructType,StructField
from pyspark.sql.types import DoubleType,StringType,IntegerType

schema = StructType([ 
      StructField('x1' = StringType()),
      StructField('x2' = DoubleType())
])

# read csv
sel_col = ['x1']
xs = spark.read.schema(schema)\
     .option('header','false')\
     .csv(path.format(s3_buckect),sep = '\\t')\
     .select(*sel_col)



2. add columns

from pyspark.sql.window import window as W
from pyspark.sql import functions as F

# add columns
df = df.withColumn('new_col',F.monotonically_increasing_id())\
       .withColumn('row_number',F.row_number().over(windowSpec))

# rename columns
df = df.withColumnRenamed('X1','newname')

# sort/drop
df.sort('x1').drop('x1')


3. join tables

dfx = df1.join(df2, df1.col1 == df2.col2, how ='inner')

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值