数据预处理与分析:NumPy、pandas及分类变量的运用
1. 数据形状与预处理的重要性
数据形状由其特征、内容、类型等元素共同定义,它决定了能对数据执行的任务类型。为了让数据适合特定类型的分析,需要将其塑造成不同的形式,就像陶艺家塑造黏土一样,不过这里依靠的是函数和算法。
数据预处理过程中会遇到各种问题,例如数据缺失、日期类型数据处理等。正确地处理数据形状至关重要,否则分析结果可能毫无意义。有些数据整形的目标是创建更大的数据集,因为分析所需的数据可能分散在不同数据库或不同形式中,需要先整形再合并成单一已知格式的数据集。
在进行数据处理时,可使用下载的源代码文件 P4DS4D2_07_Getting_Your_Data_in_Shape.ipynb 。同时,要确保 XMLData2.xml 文件与 Notebook 文件在同一文件夹中,否则后续示例会出现输入/输出(I/O)错误。例如在 Windows 系统中,Notebook 文件通常存储在 C:\Users\Username\P4DS4D2 文件夹,只需将 XMLData2.xml 从下载源文件夹复制到该文件夹即可。
2. NumPy 与 pandas 的选择
- NumPy 的使用场景 :pandas 库是基于 NumPy 构建的,使用 pandas 执行的每个任务实际上也会经过 NumPy。然而,使用 pandas 会有性能损失,有测试表明在执行类似任务时,pandas 比 NumPy 慢 100 倍(参考:ht
超级会员免费看
订阅专栏 解锁全文
1417

被折叠的 条评论
为什么被折叠?



