文章目录
1.apply()
1.1函数 操作series对象
apply()函数操作Series对象, 是把Series的逐个值进行传入并操作的.
语法 : df对象.apply(函数对象,参数名(如果有) 参数1 …)
df = pd.DataFrame({
'a': [10, 20, 30], 'b': [20, 30, 40]})
def my_fun1(x):
print('看看我执行了嘛!')
return x ** 2
# 扩展: 定义函数, 计算x的e次方.
def my_fun2(x, e):
return x ** e
df['a'].apply(my_fun1) # 细节: 这里写的是函数名, 即: 函数对象. 如果写: 函数名() 则表示是在调用函数.
df.a.apply(my_fun2, e=3) # 细节: 传参数时, 使用 关键字参数 写法进行传参.
1.2 apply()函数 => 操作DataFrame对象
DataFrame 的 apply() 默认是传入整列的 而不是 逐个值进行传入的
语法 df对象.apply(函数对象,参数名(如果有) 参数1 …)
# df 的 apply() 默认是传入整列的 而不是 逐个值进行传入的
def my_fun3(col):
x = col[0]
y = col[1]
z = col[2]
print(col)
print(type(col))
return (x + y + z)/3
def my_fun4(col):
return col.mean()
df.apply(my_fun3)
df.apply(my_fun4)
1.3 向量化函数
当 函数 传入的 是 向量 即 需要手动遍历输出的时候 可以使用 np.vectorize 装饰器自动遍历
@np.vectorize
def my_fun6(x, y):
# 判断, 如果x的值是20, 就返回NaN
if x == 20: # 报错: x是向量, 20是标量, 向量和标量无法直接计算.
return np.NAN
# for i in x:
# if i == 20: # 手动遍历, 就不报错了, 但是结果不是我们要的.
# return np.NAN
# x代表第1列数据, y代表第2列数据
return (x + y) / 2
# 调用函数
my_fun6(df.a, df.b)
# 传统写法.
my_fun6 = np.vectorize(my_fun6) # 装饰后的函数对象 = 装饰器(要被装饰的函数名)
my_fun6(df.a, df.b)
1.4 apply()函数的案例-泰坦尼克号数据集
- 需求1: 计算泰坦尼克号数据中, 每列的null值总数, 缺失占比, 非缺失值占比.
# 1. 加载数据集, 获取df对象.
train = pd.read_csv('data/titanic_train.csv')
# 1. 定义函数 count_missing(), 计算每列的缺失值总数
def count_missing(col): # col => 每列数据, Series对象
return col.isnull().sum()
# 2. 定义函数 prop_missing(), 计算每列的缺失值占比.
def prop_missing(col):
# 缺失值占比 = 缺失值数量 / 该列总长度
# return count_missing(col) / len(col)
return count_missing(col) / col.size
# 3. 定义函数 prop_not_missing(), 计算每列的非缺失值占比.
def prop_not_missing(col):
# 非缺失值占比 = 1 - 缺失值占比
return 1 - prop_missing(col)
# 4. 调用上述的函数, 获取结