数据处理:自定义函数、类与管道自动化数据清洗
在数据处理过程中,使用自定义函数、类和管道可以极大地提高数据清洗的效率和代码的可维护性。本文将详细介绍如何创建和使用这些工具来处理不同类型的数据问题。
识别异常值和意外值的函数
在数据清洗中,识别异常值和意外值是一个重要的环节。我们可以创建一些函数来帮助我们完成这个任务。
准备工作
- 创建文件 :创建两个文件,一个包含用于检查异常值的函数(
outliers.py),另一个包含调用这些函数的代码。将outliers.py放在helperfunctions子文件夹中。 - 安装库 :除了
pandas,还需要安装matplotlib、scipy和pprint库。可以使用以下命令进行安装:
pip install matplotlib
pip install scipy
pip install pprint
- 数据准备 :使用NLS和COVID - 19数据进行分析。COVID - 19数据每行代表一个国家,包含该国的累计病例和死亡人数。
超级会员免费看
订阅专栏 解锁全文
875

被折叠的 条评论
为什么被折叠?



