作者:禅与计算机程序设计艺术
1.简介
美国人口普查数据一直是统计局和各州政府提供的最宝贵的数据。然而由于众多原因导致了这些数据质量差、格式杂乱、缺乏规范化处理等问题。对于数据的分析及绘图需要先对数据进行清洗、整合、转换,然后才能更加精准地进行研究。本文将探讨如何用Python语言对美国人口普查数据进行清洗、转换、分析并绘图。
2.关键术语说明
Census Data
美国人口普查是一个统计国家的人口数量、结构、分布、年龄、教育程度、收入水平等信息的公共记录,由美国统计局和各州政府提供。每年全美约有几十万人参与人口普查,结果产生约一百万份的报告,每份报告记录着全美各个州的人口数量和分布情况。
Cleaning
数据清洗包括对原始数据进行初步整理、修订、编辑等工作。数据清洗过程是指对原始数据进行检查、编辑、格式转换、重命名、结构调整等操作,从而得到一个干净、结构化、可分析的数据集。数据清洗的目的是为了使数据更加有效、更容易理解、更容易处理。
Translating Variables
变量翻译即把不直观易懂的变量名转换成易于理解的变量名,比如把“Total Population”翻译成“总人口”。这样可以方便地用中文描述统计变量。
Transforming Data
数据变换是指通过计算、模拟、统计模型、机器学习等方式转换原始数据,得到能够更好地用于分析或作图的数据。<