数据处理与分析:从文件读取到数据框整理
1. 使用命令行工具和数据加载的场景
在数据处理过程中,使用命令行工具(CLI)有多种好处:
- 文档记录 :当需要记录操作过程时,CLI 工具能很好地满足需求。
- 减少错误 :有助于减少排版等简单但可能有害的错误。
- 可重复性 :方便未来重复相同操作或与他人分享操作流程。
- 处理大量数据 :在处理大量重复操作、大文件或需要快速执行任务时,CLI 工具能发挥重要作用。
将数据加载到数据框后,下一步是确定表格的形状和粒度。以餐厅相关文件为例,加载数据框并查看形状的代码如下:
import pandas as pd
bus = pd.read_csv('data/businesses.csv', encoding='ISO-8859-1')
insp = pd.read_csv("data/inspections.csv")
viol = pd.read_csv("data/violations.csv")
print(" Businesses:", bus.shape, "\t Inspections:", insp.shape,
"\t Violations:", viol.shape)
结果显示:
| 表格 | 形状 |
| ---- | ---- |
| Businesses | (6406, 9) |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



