主要的数据挖掘模块:
- Numpy
- Pandas
- matplotlib
- StatsModels
- Scipy
- Scikit-Learn
- Keras
- Gensim
pandas中的一些函数
DataFrame或者Series的对象
方法名 | 函数功能 |
---|---|
sum() | 求和(按列) |
mean() | 算数平均数 |
var() | 方差 |
std() | 标准差 |
corr() | Spearman(Pearson)相关系数 |
cov() | 协方差矩阵 |
skew() | 偏度(三阶矩) |
kurt() | 峰度(四阶矩) |
describe() | 给出样本的基本描述 |
累积计算(cum): 计算前1,2,3…n的
方法名 | 函数功能 |
---|---|
cumsum | 前n的和 |
cumprod | 积 |
cummax | 最大值 |
cummin | 最小值 |
滚动计算(pd.rolling_):pandas中的函数,
使用格式为pd.rolling_mean(D,K) :每k列计算一次K值,
滚动计算
方法名 | 函数功能 |
---|---|
rolling_sum() | 计算和 |
roliing_mean | 算术平均数 |
rolling_var | 方差 |
rolling_std | 标准差 |
rolling_corr | 相关系数矩阵 |
rolling_cov | 协方差 |
rolling_skew | 偏度 |
rolling_kurt | 峰度 |
常用的绘图函数
- plot
- 功能:绘制线性二维图、折线图
- 使用格式:
- plt.plot(x,y,S):绘制y对x(即以x为横轴的二维图形),S指定图像的类型、颜色等
- D.plot(kind= ‘’):默认以index为横坐标,每列数据为纵坐标,kind中指定图形的类型
- pie
- 功能: 绘制饼形图
- 使用格式: plt.pie(size)
pie中有大量的参数,需要的时候再查
-
hist
- 功能:绘制二维条形直方图
- 使用格式:plt.hist(x,y)
- y可以是组数,也可以是列表(分组的边界点)
-
plot(logx = True)/plot(logy = True:
- 绘制x/y的对数图形
-
plot(yerr = error):
- 绘制误差条形图
- 使用格式: D.plot(yerr = error)