任务说明
期望能够运用数据分析的相关技术,对全国城市空气质量进行研究与分析,希望能够解决如下疑问:
- 哪些城市的空气质量较好/较差?【描述性统计分析】
- 空气质量在地理位置上,是否具有一定的规律?【描述性统计分析】
- 临海城市的空气质量是否有别于内陆城市?【推断统计分析】
- 空气质量主要受哪些因素影响?【相关系数分析】
- 全国城市空气质量普遍处于何种水平?【区间估计】
- 怎样预测一个城市的空气质量?【统计建模】
数据集描述
我们获取了2015年空气质量数据集,该数据集包含全国主要城市的相关数据以及空气质量指数。
读取数据
导入需要的库,同时进行一些初始化的设置
#导入相关库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
sns.set(style='darkgrid')
plt.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
warnings.filterwarnings('ignore')
加载数据集
#加载之后可以使用head/tail/sample等方法查看数据的大致情况
data = pd.read_csv('data.csv')
data.head()
数据清洗
缺失值
1 缺失值探索
我们可以使用如下方法查看缺失值:
- info
- isnull
data.info()