京东数据挖掘工程师常用的 10多个 pandas 函数

原创

已于 2023-03-17 17:10:58 修改

· 3.8k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #数据挖掘

于 2022-03-17 18:42:46 首次发布

本文介绍了数据挖掘工程师在使用Pandas时常用的15个核心函数，包括列名转换为list、数据框复制、列运算、合并数据框、创建空DataFrame、获取列最大值、去重、条件过滤、列转list、分组聚合、列重命名、删除列、提取日期、组内排序和排名等。这些技巧旨在帮助熟悉SQL和Spark的开发者快速理解和应用Pandas。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sql，spark，用熟了，希望收集一下pandas dataframe常用的替代方式。这个是为了查漏补缺，快速回忆的，不适用于完全不懂sql，scala，没有操作过任何数据的新手。

df就是例子dataframe

import pandas as pd

目录

1.把column name转成 list[str]

3. 列加减乘除常数

5.新建空dataframe，指定column

6.获取列最大值

8.按条件过滤

9.把某列转成list

10. 把数据分组后，求组内最大最小等，即groupby agg

11.列重命名

12.去掉某列

1.把column name转成 list[str]

pandas: list(df)

spark-scala: df.colums.toSeq()

2.复制df

pd: df_new = df.copy()

scala: df_new = df

3. 列加减乘除常数

pd: df['v'] = df['v']+1

scala: df.withColumn("v", $"v" + 1)

4.union

pd: df_new = pd.concat([df1, df2])

scala df_new = df1.union(df2)

5.新建空dataframe，指定column

python - Pandas create empty DataFrame with only column names - Stack Overflow

pd:

df = pd.DataFrame(columns=['A','B','C','D','E','F','G'])

6.获取列最大值

python - Find maximum v

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。