数据整理与重塑实战指南
在数据分析工作中,数据往往并非以理想的格式呈现,需要进行整理和重塑,以满足分析需求。本文将介绍几种常见的数据整理和重塑方法,包括去除重复行、处理多对多关系以及将数据从宽格式转换为长格式,并提供具体的操作步骤和代码示例。
1. 去除重复行
在分析数据时,可能会遇到数据在分析单位上重复的情况,主要原因如下:
- 现有DataFrame可能是一对多合并的结果,其中“一”的一方是分析单位。
- DataFrame是重复测量或面板数据,被合并到一个扁平文件中,这是第一种情况的特殊情况。
- 处理的分析文件中,多个一对多关系被扁平化,形成了多对多关系。
当“一”的一方是分析单位时,“多”的一方的数据可能需要以某种方式进行合并。例如,在分析某所大学学生的成绩时,学生是分析单位,但可能还拥有每个学生的课程注册数据。为了准备分析数据,可能需要先计算每个学生的课程数量、总学分或平均绩点,最终为每个学生保留一行数据。
下面以COVID - 19每日病例数据为例,介绍去除重复行的具体步骤:
import pandas as pd
# 1. 导入pandas和COVID - 19每日病例数据
covidcases = pd.read_csv("data/covidcases.csv")
# 2. 创建每日病例和死亡列、病例总数列以及人口统计列的列表
dailyvars = ['casedate', 'new_cases', 'new_deaths']
totvars = ['location', 'total_cases', 'total_death
超级会员免费看
订阅专栏 解锁全文
809

被折叠的 条评论
为什么被折叠?



