数据处理与分析实用指南
1. 数据类型差异与内存使用
在数据处理过程中,不同的数据类型在内存使用上存在显著差异。为了更直观地了解对象数据类型列与整数和浮点数的不同,可以对这些列中的单个值进行修改,并查看内存使用情况的变化。
例如,对于包含学院信息的数据集 college , CURROPER 列是 int64 类型, INSTNM 列是对象类型。以下代码展示了如何修改这些列的值并查看内存使用情况:
college.loc[0, 'CURROPER'] = 10000000
college.loc[0, 'INSTNM'] = college.loc[0, 'INSTNM'] + 'a'
print(college[['CURROPER', 'INSTNM']].memory_usage(deep=True))
输出结果如下:
| 列名 | 内存使用(字节) |
| ---- | ---- |
| Index | 80 |
| CURROPER | 60280 |
| INSTNM | 660345 |
可以看到, CURROPER 列的内存使用保持不变,因为 64 位整数足以存储更大的数字。而 INSTNM 列仅在一个值中添加了一个字母,内存使用就增加了 105 字节。这是因为 Python 3 使用 Unicode 编码,每个字符最多使用 4
超级会员免费看
订阅专栏 解锁全文
3900

被折叠的 条评论
为什么被折叠?



