简介
我们在利用pandas开展数据分析时,应尽量避免过于「碎片化」的组织代码,尤其是创建出过多不必要的「中间变量」,既浪费了「内存」,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性,因此以流水线方式组织代码非常有必要。
下面要介绍的pipe(),我们就可以将任意pandas代码完美组织成流水线形式。
在pandas中灵活利用pipe()
pipe()顾名思义,就是专门用于对Series和DataFrame操作进行流水线(pipeline)改造的API,其作用是将嵌套的函数调用过程改造为「链式」过程,其第一个参数func传入作用于对应Series或DataFrame的函数。
具体来说pipe()有两种使用方式,「第一种方式」下,传入函数对应的第一个位置上的参数必须是目标Series或DataFrame,其他相关的参数使用常规的「键值对」方式传入即可,就像下面的例子一样,我们自编函数对「泰坦尼克数据集」进行一些基础的特征工程处理:
码字不易废话两句:有需要python学习资料的或者有技术问题交流 “点击”即可
import pandas as pd
train

本文介绍了如何在Python数据分析中使用pipe()函数优化代码,避免碎片化的中间变量,提高代码可读性。通过两种使用方式,演示了如何在pandas中构建流水线式的操作,包括对泰坦尼克数据集的特征工程处理和处理不作为函数第一个参数的目标DataFrame。
最低0.47元/天 解锁文章
35万+

被折叠的 条评论
为什么被折叠?



