一、环境搭建
数据分析最常见的环境是Anaconda+Jupyter notebook
二、导入包
2.1数据处理包导入
import numpy as np
import pandas as pd
注:numpy是Numerical Python的简称,是一个科学计算的包,可用来矩阵运算,处理线性代数的常见问题。
pandas是panel data和data analysis的组合词,原来是用来处理计量经济学面板数据的工具,可以用来数据对齐、切割、取片、查重、去空等一系列操作。
2.2画图包导入
import matplotlib.pyplot as plt
import missingno as msno
import seaborn as sns
sns.set()
sns.set_style('whitegrid', {'font.sans-serif':['simhei', 'Arial']})
注:matplotlib是常见的绘制图表的工具,seaborn是它的加强版,missingno是缺失值可视化处理的工具,sns.set()设置画图空间为 Seaborn 默认风格。后面的代码为处理中文字体。
2.3日期处理包导入
import calendar
from datetime import datetime
2.4jupyter notebook绘图设置
%matplotlib inline
%config InlineBackend.figure_format="retina"
注:%matplotlib inline是jupyter notebook里的命令,意思是将那些用matplotlib绘制的图显示在页面里而不是弹出一个窗口。