京东数据挖掘工程师常用的 10多个 pandas 函数

本文介绍了数据挖掘工程师在使用Pandas时常用的15个核心函数,包括列名转换为list、数据框复制、列运算、合并数据框、创建空DataFrame、获取列最大值、去重、条件过滤、列转list、分组聚合、列重命名、删除列、提取日期、组内排序和排名等。这些技巧旨在帮助熟悉SQL和Spark的开发者快速理解和应用Pandas。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

sql,spark,用熟了,希望收集一下pandas dataframe常用的替代方式。这个是为了查漏补缺,快速回忆的,不适用于完全不懂sql,scala,没有操作过任何数据的新手。

df就是例子dataframe

import pandas as pd

目录

1.把column name转成 list[str]

2.复制df

3. 列加减乘除常数

4.union

5.新建空dataframe,指定column

6.获取列最大值

7.去重

8.按条件过滤

9.把某列转成list

10. 把数据分组后,求组内最大最小等,即groupby agg

11.列重命名

12.去掉某列


1.把column name转成 list[str]

pandas: list(df)

spark-scala: df.colums.toSeq()

2.复制df

pd: df_new = df.copy()

scala: df_new = df

3. 列加减乘除常数

pd: df['v'] = df['v']+1

scala: df.withColumn("v", $"v" + 1)

4.union

pd: df_new = pd.concat([df1, df2])

scala df_new = df1.union(df2)

5.新建空dataframe,指定column

python - Pandas create empty DataFrame with only column names - Stack Overflow

pd:

df = pd.DataFrame(columns=['A','B','C','D','E','F','G'])

6.获取列最大值

python - Find maximum v

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值