1、有一个包含电影获奖简要信息的 Excel 电子表格,链接为:https://www.gnosis.cx/cleaning/Film_Awards.xlsx。本次练习要求你使用自己最熟悉的语言和库,将这些数据读入一个结构良好且标准化的数据框。在此过程中,需要解决检测到的数据完整性问题,如电影《1917》在简单输入单元格时被存储为数字而非字符串;部分数值的拼写不一致,例如 Olivia Colman 的名字有一次被错误转录为“Coleman”;有一个值存在空格问题;在结构上,表面的平行关系并非如此,人名有时列在协会名称下,有时列在其他列;电影名称有时列在协会下,有时列在其他地方;有些列名在同一表格区域多次出现。在考虑良好的数据框组织时,要思考哪些是自变量和因变量。每年,每个协会都会为每个类别颁发奖项,这些是独立维度。人名和电影名有些棘手,因为它们并非完全独立,但同时有些奖项是授予电影的,有些是授予个人的。此外,一名演员可能在一年内出演多部电影(此示例数据中未出现,但不要排除这种可能性)。同样,在电影历史中,有时多部电影会使用相同的名称。有些人既是导演又是演员(可能是同一部或不同的电影)。一旦得到一个有用的数据框,用它来回答以下问题并生成总结报告:列出每部获得多个奖项的电影及其相关的奖项和年份;列出每位获得多个奖项的演员/女演员及其相关的电影和奖项。虽然这个小数据集中没有出现,但有时演员/女演员会因多部电影获奖(通常是在不同年份),确保代码能够处理这种情况。还可以手动研究并添加其他年份的获奖信息,特别是添加一些数据可以展示演员因多部电影获奖的情况,检验其他报告能否正确总结更大的数据集。
## 任务描述
本次任务需使用熟悉的语言和库将指定 Excel 表格数据读入标准化数据框,解决数据完整性问题,如:
- 电影名存储格式错误
- 拼写不一致
- 空格问题
- 结构不规范
- 列名重复
在处理过程中,需考虑**自变量**和**因变量**来组织数据框。
## 数据处理要求
- 读取 Excel 数据并清理,生成一个标准化的数据框
- 修复数据完整性问题,确保结构清晰、字段统一
## 报告生成要求
得到数据框后,需完成**总结报告**,内