在 PyCharm 中构建数据管道
1. 数据管道概述
数据管道通常指的是一个逐步进行的数据收集、处理和分析过程。在行业中,它被广泛用于描述将原始数据转化为可操作见解的可靠工作流程。有些数据管道规模巨大,例如营销技术公司从 Kafka 流中摄取数百万个数据点,将其存储在 Hadoop 或 ClickHouse 等大型数据存储中,然后进行清理、丰富和可视化。而在本文中,我们将处理一个规模较小但影响重大的项目。
在这个项目中,我们将学习以下内容:
- 如何处理和维护数据集
- 如何清理和预处理数据
- 如何可视化数据
- 如何利用机器学习
2. 技术要求
要进行本项目,你需要以下工具和资源:
- Anaconda:专为数据科学工作负载定制的 Python 发行版,可从 https://anaconda.com 获取,并根据你的操作系统进行安装。
- conda:Anaconda 的包管理器,随 Anaconda 一起安装,我们将使用它来替代常规的 pip。
- PyCharm:已安装并可正常工作的 PyCharm 副本。
- 示例源代码:从 GitHub 上获取示例源代码,本章代码可在 https://github.com/PacktPublishing/Hands-On-Application-Development-with-PyCharm–Second-Edition/tree/main/chapter-14 找到。
3. 处理数据集
数据集是任何数据科学项目的核心。一个优质、结构良好的数据集能让我们探索、构思并发现重要的数据见解。
超级会员免费看
订阅专栏 解锁全文
1034

被折叠的 条评论
为什么被折叠?



