- 博客(9)
- 收藏
- 关注
原创 pyspark常用语法_零碎
想了解更多,欢迎移步"文渊小站"里面有更多知识分享,以及一些有意思的小项目~环境spark 2.4.0df查看信息(常用)df.schema # df表结构df.columns # df各字段df.dtypes # df各字段数据类型df.first() # df的第一行数据df.head() # df的第一行数据 # df.head(5) # df的前五行数据df.show() # 展示 df 的部分行数据 # df.show(
2021-12-29 16:57:13
1459
原创 pyspark常用语法_UDF
想了解更多,欢迎移步"文渊小站"里面有更多知识分享,以及一些有意思的小项目~环境spark 2.4.0udf库自带函数import pyspark.sql.functions as F## F.when(if条件,if结果).otherwise(else结果)df = df.withColumn('a', F.when(F.col('a').isin([1,2,3]) | F.isnan(F.col('a')) | F.col('a').isNull(), F.col('a')).othe
2021-12-29 16:56:14
1753
原创 pyspark常用语法_df行列拼接
想了解更多,欢迎移步"文渊小站"里面有更多知识分享,以及一些有意思的小项目~环境spark 2.4.0df列拼接(join操作)from pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession, SQLContext
2021-12-29 16:55:13
1850
原创 pyspark常用语法_读取各类数据源
想了解更多,欢迎移步"文渊小站"里面有更多知识分享,以及一些有意思的小项目~环境spark 2.4.01 读写 csv文件# 读csvfile_path = r"xx/xx/xx/" # 可以是文件路径,也可以是文件名# df = spark.read.csv(file_path, header=True, inferSchema=True)df = spark.read.format('csv').option("header", "true").option("inferSchema
2021-12-29 16:53:10
1295
原创 pyspark常用语法_相关创建
想了解更多,欢迎移步"文渊小站"里面有更多知识分享,以及一些有意思的小项目~环境spark 2.4.0创建spark,sc等from pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession, SQLContext
2021-12-29 16:50:53
657
原创 python常用语法_零碎
想了解更多,欢迎移步"文渊小站"里面有更多知识分享,以及一些有意思的小项目~消除警告from warnings import filterwarningsfilterwarnings('ignore') # 不打印警告
2021-12-29 16:44:27
314
原创 python常用语法_dataframe
想了解更多,欢迎移步"文渊小站"里面有更多知识分享,以及一些有意思的小项目~创建df(1) 方式1import pandas as pddf = pd.DataFrame(columns=('pid', 'login_code')) # 如果数据只有1列,需要用中括号而不是小括号:df = pd.DataFrame(columns=['pid'])df.loc[len(df)] = ['p001', 'login0001'] # 在df的最后一行添加一行数据
2021-12-29 16:42:19
1251
原创 python常用语法_文件
想了解更多,欢迎移步"文渊小站"里面有更多知识分享,以及一些有意思的小项目~读写文件1 txt文件(1) 打开文件方式1(需要关闭文件)f = open('data.txt','r') # 'r',读操作;'w',写操作(覆盖之前的);'a',写操作(追加到后面) # 写操作时,若文件不存在,会自动创建# 中间进行读/写文件操作f.close() # 关闭文件
2021-12-29 16:37:18
589
原创 python常用语法_不同数据类型
想了解更多,欢迎移步"文渊小站"里面有更多知识分享,以及一些有意思的小项目~排序1 dataframe按照某一列的值排序df1 = df1.sort_values(by='col1', ascending=True) # 先将数据按照'col1'列值升序排列df2 = df2.sort_values(by=['col1', 'col2'], ascending=[True, False]) # 先将数据按照'col1'列值升序排列, 然后此基础上,按照'col2'列值降序排列
2021-12-29 16:28:14
404
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人