-
Pandas
-
Matplotlib
-
Datacleaner
-
Dora
-
Seaborn
-
Arrow
-
Scrubadub
-
Tabulate
-
Missingno
-
Modin
-
Ftfy
-
SciPy
-
Dabl
-
Imblearn
NumPy
NumPy 是一个快速且易于使用的开源科学计算 Python 库,它也是数据科学生态系统的基础库,因为 Pandas 和 Matplotlib 等许多最流行的 Python 库都是建立在 NumPy 之上的
除了作为其他强大库的基础之外,NumPy 还具有许多特性,使其成为 Python 数据分析不可或缺的一部分。由于其速度和多功能性,NumPy 的矢量化、索引和广播概念代表了数组计算的事实标准,NumPy 在处理多维数组时尤为出色。它还提供了一个全面的数值计算工具箱,如线性代数例程、傅立叶变换等
NumPy 可以为很多人做很多事情,其高级语法允许任何背景或经验水平的程序员使用其强大的数据处理能力。例如,基于 NumPy 生成了有史以来第一张黑洞图像,它还证实了引力波的存在,目前正在各种科学研究中都起着重要的作用
就是这样一个涵盖从运动到太空的所有内容的程序也可以帮助我们管理和清理数据,不得不说,Numpy 库太神奇了
Pandas
Pandas 是由 NumPy 提供支持的库,它是 Python 中使用最广泛的 数据分析和操作库
Pandas 快速且易于使用,其语法非常人性化,再加上其在操作 DataFrame 方面拥有令人难以置信的灵活性,使其成为分析、操作和清理数据不可或缺的工具
这个强大的 Python 库不仅可以处理数字数据,还可以处理文本数据和日期数据。它允许我们加入、合并、连接或复制 Da
taFrame,并使用 drop() 函数轻松添加或删除列或行
简而言之,Pandas 结合了速度、易用性和灵活的功能,创建了一个非常强大的工具,使数据操作和分析变得快速而简单
Matplotlib
了解我们的数据是清理过程的关键部分,清理数据的目的就是使其易于理解。但是在我们拥有漂亮干净的数据之前,需要先了解凌乱数据中的问题,例如它们的种类和范围,然后才能对其进行有效的清理,这个操作的很大一部分取决于数据的准确和直观呈现的程度
Matplotlib 以其令人印象深刻的数据可视化而闻名,这使其成为数据清理工作中的宝贵工具,它是使用 Python 生成图形、图表和其他 2D 数据可视化的首选工具库
我们可以在数据清理中使用 Matplotlib,通过生成分布图来帮助我们了解数据的不足之处
Datacleaner
Datacleaner 是一个基于 Pandas DataFrame 的第三方库,虽然 Datacleaner 出现的时间比较短并且不如 Pandas 流行,但是,Datacleaner 有一种独特的方法,它结合了一些典型的数据清理功能并使其自动化,这为我们节省了宝贵的时间和精力
使用 Datacleaner,我们可以在逐列的基础上使用众数或中位数轻松替换缺失值,对分类变量进行编码,并删除具有缺失值的行
Dora
Dora 库使用 Scikit-learn、Pandas 和 Matplotlib 进行探索性分析,或者更具体地说,用于自动化探索性分析中最不受欢迎的方面。除了处理特征选择、提取和可视化之外,Dora 还优化和自动化数据清理
Dora 将通过许多数据清理功能为我们节省宝贵的时间和精力,例如输入缺失值、读取缺失值和缩放不佳的值的数据以及输入变量的缩放值等等
此外,Dora 提供了一个简单的界面,用于在我们转换数据时保存数据快照,并以其独特的数据版本控制功能与其他 Python 包区别开来
Seaborn
在前面,我们讨论了可视化数据以揭示数据缺陷和不一致的重要性。在解决数据中的问题之前,我们需要知道它们是什么以及它们在哪里,此时使用数据可视化就是最好的方案。虽然对于许多 Python 用户来说,Matplotlib 是数据可视化的首选库,然而一些用户发现 Matplotlib 在自定义数据可视化选项方面的局限性也非常大,于是我们有了Seaborn。
Seaborn 是一个数据可视化包,它建立在 Matplotlib 之上,可生成有吸引力且信息丰富的统计图形,同时提供可定制的数据可视化
它也改进了在 Pandas 的 DataFrames 中的运行效率,可以更加紧密的与 Pandas 相结合,使探索性分析和数据清理更加愉快
Arrow
提高数据质量的一个重要方面是在整个 DataFrame 中创建统一性和一致性,对于试图在处理日期和时间时创建统一性的 Python 开发人员来说,这个过程可能往往会比较困难。经常在花费了无数个小时和无数行代码之后,日期和时间格式化的特殊困难仍然存在
Arrow 是一个 Python 库,专门用于处理这些困难并创建数据一致性。它的省时功能包括时区转换;自动字符串格式化和解析;支持 pytz、dateutil 对象、ZoneInfo tzinfo;生成范围、下限、时间跨度和上限,时间范围从微秒到数年不等
Arrow 可以识别时区(与标准 Python 库不同),并且默认为 UTC。它通过更少的代码和更少的输入授予用户更熟练的日期和时间操作命令。这意味着我们可以为我们的数据带来更大的一致性,同时减少花在时钟上的时间
Scrubadub
Scrubadub 是金融和医疗数据科学家的最爱,它是一个 Python 库,专门用于从自由文本中消除个人身份信息 (PII)
这个简单、免费和开源的软件包可以轻松地从我们的数据中删除敏感的个人信息,从而保护当事人的隐私和安全
Scrubadub 目前允许用户清除以下信息的数据:
-
电子邮件地址
-
网址
-
姓名
-
Skype 用户名
-
电话号码
-
密码/用户名组合
(1)Python所有方向的学习路线(新版)
这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
最近我才对这些路线做了一下新的更新,知识体系更全面了。
(2)Python学习视频
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
(3)100多个练手项目
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。
.cn/d66e3ad5592f4cdcb197de0dc0438ec5.png#pic_center)
(3)100多个练手项目
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。