【笔记】《Python数据分析与实战挖掘》

最新推荐文章于 2025-09-08 02:11:26 发布

原创

最新推荐文章于 2025-09-08 02:11:26 发布 · 7.8k 阅读

CC 4.0 BY-SA版权

文章标签：

  《Python数据分析与实战挖掘》 张良均 

 
 基础篇 

  书推荐：《用python做科学计算》 

  扩展库 简介 

 
 Numpy数组支持，以及相应的高效处理函数 

 
 Scipy矩阵支持，以及相应的矩阵数值计算模块 

 
 Matplotlib强大的数据可视化工具、作图库 

 
 Pandas强大、灵活的数据分析和探索工具 

  StatsModels 统计建模和计量经济学，包括描述统计、统计模型估计和推断 

 
 Scikit-Learn支持回归、分类、聚类等的强大机器学习库 

 
 Keras深度学习库，用于建立神经网络以及深度学习模型 

  Gensim 文本主题模型的库，文本挖掘用 

  ①Numpy 

  提供了数组功能，以及对数据进行快速处理的函数。是Scipy、Matplotlib、Pandas等高级扩展库的依赖库。其内置函数处理速度是C语言级别的。 

  ②Scipy 

  包含最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程常用的计算 

  ③Matplotlib 

  提供二维绘图，也可以三维绘图，与Matlab相似但更为丰富 

  使用时如果使用中文无法正常显示，需要作图前手动指定默认字体为中文，如SimHei 

  ④Pandas 

  python下最强大的数据分析和探索工具。构建在Numpy之上。 

  支持类似于SQL的增删改查，有丰富的数据处理函数，支持时间序列分析功能，支持灵活处理缺失数据等 

  Pandas基本的数据结构实Series和DataFrame，序列(一维数组)和表格(二维数组) 

  ⑤StatsModels 

  Pandas着眼于数据的读取、处理和探索；而StatsModels更注重数据统计建模分析(R的味道) 

  StatsModels和Pandas——python最强数据挖掘组合 

  ⑥Scikit-Learn 

  机器学习库，包括数据预处理、分类、回归、聚类、预测和模型分析等；依赖于NumPy、SciPy、Matplotlib 

  ⑦Keras 

  Scikit-Learn没有人工神经网络模型，Keras用于搭建神经网络，是一个机遇Theano的深度学习库。 

  安装Keras前需要安装Numpy、Scipy和Theano，安装Theano要先准备一个C++编译器。在windows下需要先安装MinGW(Windows下的GCC和G++)，然后安装Theano，最后Kera。如果要实现GPU加速还要配置CUDA 

  ⑧Gensim 

  用于处理语言方面的任务，如文本相似度计算、LDA、Word2Vec等 

 
 数据探索 

 
 1、数据质量分析：检查原始数据中是否存在不符合要求的数据。主要包括缺失值、异常值、不一致值、重复数据及特殊符号数据 

 
 缺失值，包括记录缺失和记录的某字段缺失等 

  产生原