sql,spark,用熟了,希望收集一下pandas dataframe常用的替代方式。这个是为了查漏补缺,快速回忆的,不适用于完全不懂sql,scala,没有操作过任何数据的新手。
df就是例子dataframe
import pandas as pd
目录
10. 把数据分组后,求组内最大最小等,即groupby agg
1.把column name转成 list[str]
pandas: list(df)
spark-scala: df.colums.toSeq()
2.复制df
pd: df_new = df.copy()
scala: df_new = df
3. 列加减乘除常数
pd: df['v'] = df['v']+1
scala: df.withColumn("v", $"v" + 1)
4.union
pd: df_new = pd.concat([df1, df2])
scala df_new = df1.union(df2)
5.新建空dataframe,指定column
python - Pandas create empty DataFrame with only column names - Stack Overflow
pd:
df = pd.DataFrame(columns=['A','B','C','D','E','F','G'])