Python学习笔记29：进阶篇(十八)常见标准库使用之质量控制中的数据清洗

最新推荐文章于 2025-04-30 15:49:17 发布

原创

最新推荐文章于 2025-04-30 15:49:17 发布 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

前言

本文是根据python官方教程中标准库模块的介绍，自己查询资料并整理，编写代码示例做出的学习笔记。

根据模块知识，一次讲解单个或者多个模块的内容。

教程链接：https://docs.python.org/zh-cn/3/tutorial/index.html

质量控制(Quality Control, QC)，主要关注于提高代码质量、确保数据准确性和程序稳定性。

数据质量是指数据满足其预定用途所要求的准确性、完整性、一致性、及时性和有效性的程度。良好的数据质量是数据分析、决策支持以及模型训练等过程成功的基础。把控数据质量主要包括以下几个方面：

数据质量的要素：

如何把控数据质量：

通过上述方法，可以在Python中有效地把控数据质量，确保数据分析和决策基于可靠的数据基础之上。

数据清洗是数据预处理的关键步骤，旨在识别并纠正数据集中的错误、不完整、不准确或无关的部分，以提升数据质量，确保后续分析或建模的准确性。
在Python中，数据清洗通常借助pandas库完成。

import pandas as pd

# 打开一个名为"test.csv"的文件,没有就新建一个，我就是新建的
df = pd.read_csv('test.csv', encoding='gbk')

pd模块中还有很多read开头的函数，自行尝试。