《Python数据分析与实战挖掘》 张良均
基础篇
书推荐:《用python做科学计算》
扩展库 简介
Numpy数组支持,以及相应的高效处理函数
Scipy矩阵支持,以及相应的矩阵数值计算模块
Matplotlib强大的数据可视化工具、作图库
Pandas强大、灵活的数据分析和探索工具
StatsModels 统计建模和计量经济学,包括描述统计、统计模型估计和推断
Scikit-Learn支持回归、分类、聚类等的强大机器学习库
Keras深度学习库,用于建立神经网络以及深度学习模型
Gensim 文本主题模型的库,文本挖掘用
①Numpy
提供了数组功能,以及对数据进行快速处理的函数。是Scipy、Matplotlib、Pandas等高级扩展库的依赖库。其内置函数处理速度是C语言级别的。
②Scipy
包含最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程常用的计算
③Matplotlib
提供二维绘图,也可以三维绘图,与Matlab相似但更为丰富
使用时如果使用中文无法正常显示,需要作图前手动指定默认字体为中文,如SimHei
④Pandas
python下最强大的数据分析和探索工具。构建在Numpy之上。
支持类似于SQL的增删改查,有丰富的数据处理函数,支持时间序列分析功能,支持灵活处理缺失数据等
Pandas基本的数据结构实Series和DataFrame,序列(一维数组)和表格(二维数组)
⑤StatsModels
Pandas着眼于数据的读取、处理和探索;而StatsModels更注重数据统计建模分析(R的味道)
StatsModels和Pandas——python最强数据挖掘组合
⑥Scikit-Learn
机器学习库,包括数据预处理、分类、回归、聚类、预测和模型分析等;依赖于NumPy、SciPy、Matplotlib
⑦Keras
Scikit-Learn没有人工神经网络模型,Keras用于搭建神经网络,是一个机遇Theano的深度学习库。
安装Keras前需要安装Numpy、Scipy和Theano,安装Theano要先准备一个C++编译器。在windows下需要先安装MinGW(Windows下的GCC和G++),然后安装Theano,最后Kera。如果要实现GPU加速还要配置CUDA
⑧Gensim
用于处理语言方面的任务,如文本相似度计算、LDA、Word2Vec等
数据探索
1、数据质量分析:检查原始数据中是否存在不符合要求的数据。主要包括缺失值、异常值、不一致值、重复数据及特殊符号数据
缺失值,包括记录缺失和记录的某字段缺失等
产生原因:无法获取、遗漏、属性值不存在;