11、数据预处理与分析:NumPy、pandas及分类变量的运用

数据预处理与分析:NumPy、pandas及分类变量的运用

1. 数据形状与预处理的重要性

数据形状由其特征、内容、类型等元素共同定义,它决定了能对数据执行的任务类型。为了让数据适合特定类型的分析,需要将其塑造成不同的形式,就像陶艺家塑造黏土一样,不过这里依靠的是函数和算法。

数据预处理过程中会遇到各种问题,例如数据缺失、日期类型数据处理等。正确地处理数据形状至关重要,否则分析结果可能毫无意义。有些数据整形的目标是创建更大的数据集,因为分析所需的数据可能分散在不同数据库或不同形式中,需要先整形再合并成单一已知格式的数据集。

在进行数据处理时,可使用下载的源代码文件 P4DS4D2_07_Getting_Your_Data_in_Shape.ipynb 。同时,要确保 XMLData2.xml 文件与 Notebook 文件在同一文件夹中,否则后续示例会出现输入/输出(I/O)错误。例如在 Windows 系统中,Notebook 文件通常存储在 C:\Users\Username\P4DS4D2 文件夹,只需将 XMLData2.xml 从下载源文件夹复制到该文件夹即可。

2. NumPy 与 pandas 的选择
  • NumPy 的使用场景 :pandas 库是基于 NumPy 构建的,使用 pandas 执行的每个任务实际上也会经过 NumPy。然而,使用 pandas 会有性能损失,有测试表明在执行类似任务时,pandas 比 NumPy 慢 100 倍(参考:ht
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值