文渊壹哥-优快云博客

原创 pyspark常用语法_零碎

想了解更多，欢迎移步"文渊小站"里面有更多知识分享，以及一些有意思的小项目～环境spark 2.4.0df查看信息（常用）df.schema # df表结构df.columns # df各字段df.dtypes # df各字段数据类型df.first() # df的第一行数据df.head() # df的第一行数据 # df.head(5) # df的前五行数据df.show() # 展示 df 的部分行数据 # df.show(

2021-12-29 16:57:13 1459

原创 pyspark常用语法_UDF

想了解更多，欢迎移步"文渊小站"里面有更多知识分享，以及一些有意思的小项目～环境spark 2.4.0udf库自带函数import pyspark.sql.functions as F## F.when(if条件，if结果).otherwise(else结果)df = df.withColumn('a', F.when(F.col('a').isin([1,2,3]) | F.isnan(F.col('a')) | F.col('a').isNull(), F.col('a')).othe

2021-12-29 16:56:14 1753

原创 pyspark常用语法_df行列拼接

想了解更多，欢迎移步"文渊小站"里面有更多知识分享，以及一些有意思的小项目～环境spark 2.4.0df列拼接（join操作）from pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession, SQLContext

2021-12-29 16:55:13 1850

原创 pyspark常用语法_读取各类数据源

想了解更多，欢迎移步"文渊小站"里面有更多知识分享，以及一些有意思的小项目～环境spark 2.4.01 读写 csv文件# 读csvfile_path = r"xx/xx/xx/" # 可以是文件路径，也可以是文件名# df = spark.read.csv(file_path, header=True, inferSchema=True)df = spark.read.format('csv').option("header", "true").option("inferSchema

2021-12-29 16:53:10 1295

原创 pyspark常用语法_相关创建

想了解更多，欢迎移步"文渊小站"里面有更多知识分享，以及一些有意思的小项目～环境spark 2.4.0创建spark,sc等from pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession, SQLContext

2021-12-29 16:50:53 657

原创 python常用语法_零碎

想了解更多，欢迎移步"文渊小站"里面有更多知识分享，以及一些有意思的小项目～消除警告from warnings import filterwarningsfilterwarnings('ignore') # 不打印警告

2021-12-29 16:44:27 314

原创 python常用语法_dataframe

想了解更多，欢迎移步"文渊小站"里面有更多知识分享，以及一些有意思的小项目～创建df(1) 方式1import pandas as pddf = pd.DataFrame(columns=('pid', 'login_code')) # 如果数据只有1列，需要用中括号而不是小括号：df = pd.DataFrame(columns=['pid'])df.loc[len(df)] = ['p001', 'login0001'] # 在df的最后一行添加一行数据

2021-12-29 16:42:19 1251

原创 python常用语法_文件

想了解更多，欢迎移步"文渊小站"里面有更多知识分享，以及一些有意思的小项目～读写文件1 txt文件(1) 打开文件方式1（需要关闭文件）f = open('data.txt','r') # 'r'，读操作；'w'，写操作（覆盖之前的）；'a'，写操作（追加到后面） # 写操作时，若文件不存在，会自动创建# 中间进行读/写文件操作f.close() # 关闭文件

2021-12-29 16:37:18 589

原创 python常用语法_不同数据类型

想了解更多，欢迎移步"文渊小站"里面有更多知识分享，以及一些有意思的小项目～排序1 dataframe按照某一列的值排序df1 = df1.sort_values(by='col1', ascending=True) # 先将数据按照'col1'列值升序排列df2 = df2.sort_values(by=['col1', 'col2'], ascending=[True, False]) # 先将数据按照'col1'列值升序排列, 然后此基础上，按照'col2'列值降序排列

2021-12-29 16:28:14 404

qq_43354053的博客