Python数据分析基础模块
numpy scipy pandas matplotlib
数值计算 numpy ;数据处理分析 pandas ;可视化 matplotlib/seaborn
机器学习 Sklearn/keras ;交互 pygame ;网络 Selenium etc
conda install XXX 或者 pip/pip3 install XXX
numpy提供常用的数值数组,矩阵等函数
numpy特点:
1 基于向量化的运算
2 进行数值运算时numpy数组比list效率高
# -*- coding: utf-8 -*-
import numpy as np
__author__ = 'zxl'
__product__ = 'PyCharm'
__filename__ = 'numpy1'
print(np.arange(10))
for i in range(10):
print(i)
a = np.arange(10)
print(a**2)
scipy 是一种基于numpy的扩展 用来做高等数学,信号处理,优化,统计的扩展包
比如线性代数,统计的 空间的数据结构
# -*- coding: utf-8 -*-
import numpy as np
from scipy import linalg
__author__ = 'dongfangyao'
__date__ = '2017/12/17 下午2:35'
__product__ = 'PyCharm'
__filename__ = 'scipy1'
a = np.array([[1, 2], [30, 4]])
print(a)
# 二阶方阵行列式
print(linalg.det(a))
# 推荐用scipy.linalg代替numpy.linalg
pandas 是一种构建于Numpy的高级数据结构和精巧工具,快速简单的处理数据,数据结构
Series 和DataFrame
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
__author__ = 'dongfangyao'
__date__ = '2017/12/17 下午3:13'
__product__ = 'PyCharm'
__filename__ = 'pandas1'
s = pd.Series([2, 4, 5, np.nan, 8, 9])
print(s)
dates = pd.date_range('20171201', periods=7)
print(dates)
df = pd.DataFrame(np.random.randn(7, 4), index=dates, columns=list('ABCD'))
print(df)
# 转置
# print(df.T)
print(df.sort_values(by='B'))