【Python数据分析】pandas apply自定义函数+分组操作+分析案例

本文链接：https://blog.youkuaiyun.com/weixin_57336987/article/details/142443604

文章目录

1.apply()
2. 分组操作
3. 分析案例

1.apply()

1.1函数操作series对象

apply()函数操作Series对象, 是把Series的逐个值进行传入并操作的.

语法 : df对象.apply(函数对象,参数名(如果有) 参数1 …)

df = pd.DataFrame({
   'a': [10, 20, 30], 'b': [20, 30, 40]})
def my_fun1(x):
    print('看看我执行了嘛!')
    return x ** 2


# 扩展: 定义函数, 计算x的e次方.
def my_fun2(x, e):
    return x ** e
df['a'].apply(my_fun1)  # 细节: 这里写的是函数名, 即: 函数对象.  如果写: 函数名() 则表示是在调用函数.

df.a.apply(my_fun2, e=3)  # 细节: 传参数时, 使用 关键字参数 写法进行传参.

1.2 apply()函数 => 操作DataFrame对象

DataFrame 的 apply() 默认是传入整列的而不是逐个值进行传入的

语法 df对象.apply(函数对象,参数名(如果有) 参数1 …)

# df 的 apply() 默认是传入整列的 而不是 逐个值进行传入的
def my_fun3(col):
    x = col[0]
    y = col[1]
    z = col[2]
    print(col)
    print(type(col))
    return (x + y + z)/3

def my_fun4(col):
    return col.mean()
df.apply(my_fun3)
df.apply(my_fun4)

在这里插入图片描述

1.3 向量化函数

当函数传入的是向量即需要手动遍历输出的时候可以使用 np.vectorize 装饰器自动遍历

@np.vectorize
def my_fun6(x, y):
    # 判断, 如果x的值是20, 就返回NaN
    if x == 20:         # 报错: x是向量, 20是标量, 向量和标量无法直接计算. 
        return np.NAN
    
    # for i in x:
    #     if i == 20:         # 手动遍历, 就不报错了, 但是结果不是我们要的.
    #         return np.NAN
    
    # x代表第1列数据, y代表第2列数据
    return (x + y) / 2

# 调用函数
my_fun6(df.a, df.b)
# 传统写法.
my_fun6 = np.vectorize(my_fun6)     # 装饰后的函数对象 = 装饰器(要被装饰的函数名)
my_fun6(df.a, df.b)

1.4 apply()函数的案例-泰坦尼克号数据集

需求1: 计算泰坦尼克号数据中, 每列的null值总数, 缺失占比, 非缺失值占比.

# 1. 加载数据集, 获取df对象.
train = pd.read_csv('data/titanic_train.csv')
# 1. 定义函数 count_missing(), 计算每列的缺失值总数
def count_missing(col):           # col => 每列数据, Series对象
    return col.isnull().sum()

# 2. 定义函数 prop_missing(), 计算每列的缺失值占比.
def prop_missing(col):
    # 缺失值占比 = 缺失值数量 / 该列总长度
    # return count_missing(col) / len(col)
    return count_missing(col) / col.size

# 3. 定义函数 prop_not_missing(), 计算每列的非缺失值占比.
def prop_not_missing(col):
    # 非缺失值占比 = 1 - 缺失值占比
    return 1 - prop_missing(col)

# 4. 调用上述的函数, 获取结