一、初始工具
1.anaconda: IPython、spyder
2.数据处理工具:pandas、numpy、Excel、sql
3.建模工具:sklearn
3.1 内容
3.2 API
数据预处理:
- Pandas:强大、灵活的数据分析和探索工具
- Numpy:数组支持,以及相应的高校处理函数
- Scipy:矩阵支持,以及对应的矩阵数值计算模块
- Matplotlib:强大的数据可视化工具,作图库
- ……
建模:
- Scikit-Learn:支持回归、分类、聚类等的强大机器学习库
- StatsModels: 统计建模和计量经济学,包括描述统计、统计模型估计和推断
- Keras:深度学习库,用于建立神经网络以及深度学习模型
- Gensim:文本主题模型的库,文本挖掘用
- TensorFlow、Theano:深度学习
- ……
from sklearn import datasets
import pandas as pd
import numpy as np
from sklearn import preprocessing
#数据举例
iris = datasets.load_iris()
X, y = iris.data, iris.target
testData = pd.read_csv('C:\\Users\\Load_model\\all_model\\traindata_v2.csv')
testData = testData[:10000]
testData.describe().T
# 有时候需要对数据进行合并, pd.merge pd.concat
#自己生成数据玩一下
playData = pd.DataFrame({
'fillNan1' : [0,1]*10 + [2]*20 + [np.nan]*10,
'date' : pd.date_range('20130101', periods=50),
'continue1' : pd.Series(3,index=list(range(50)),dtype='float32'),
'continue2' : np.array([3,4,5,6,7] * 10,dtype='int32'),