python技能描述_Python数据分析初级技能包整理（未完）

最新推荐文章于 2023-04-08 10:50:22 发布

原创最新推荐文章于 2023-04-08 10:50:22 发布 · 204 阅读

CC 4.0 BY-SA版权

文章标签：

本文概述了Python在数据分析中的应用，包括探索型数据分析的绘图工具Seaborn及其风格设定，验证型数据分析中的假设检验和统计知识，以及预测型数据分析中的机器学习算法和模型评估方法。介绍了Statsmodels、Scipy等库，并提到了过拟合、欠拟合的解决策略以及特征选择和模型优化的方法。

数据分析，可以分为探索型、验证型与预测型三大类。

探索型数据分析-「画图」

Seaborn绘图背景样式控制：seaborn.set_style('parameter')darkgrid 黑色网格

whitegrid 白色网格

dark 黑色背景无网格

white 白色背景无网格

ticks 白色背景无网格

在Spyder/IPython中(Anaconda会自带这两个IDE)输入seaborn.图类型(时，会自动跳出可设置调整的参数列表，如：

其他绘图工具推荐：

验证型数据分析-「假设检验」提出null nypothesis(和对应的alternative hypothesis)

推测null nypothesis下，样本统计量发生的概率P-value(根据统计量所符合的概率分布规律不同，有不同的检验方法)

设定拒绝null nypothesis的阈值α(比如5%)，p

需要掌握的统计学知识：误差error：标准差(总体标准差、样本标准差)、Bootstrap置信区间(Quantile算法等)

随机变量与常见的概率分布、概率密度函数

Statsmodels：用于实现统计建模和计量经济学的工具包，主要包括描述统计、统计模型估计和统计推断。StatsModels: Statistics in Python

Scipy：一个数学、科学和工程计算Python工具包，包括统计、优化、整合、线性代数等等与科学计算有关的包。SciPy Documentation

预测型数据分析-「机器学习」回归：预测连续型变量

分类：预测离散型变量(类别已知)

聚类：根据样本之间的相似性对样本进行分类(类别未知)

常见机器学习算法：线性回归、逻辑回归、k近邻(kNN)、k均值(k-means)、DBSCAN、决策树、随机森林、Adboost、GBDT、Xgboost。了解这些算法的优缺点和适用范围。监督学习：已有一些训练样本(训练集)，同时知道X和y，通过这些已知的样本学习得到回归模型。

无监督学习：在样本中寻找自然集群，而事先是不知道存在哪些集群的。聚类是无监督学习。

集成学习：通俗来讲，就是融合了多种算法，通过综合多个模型的结果，来决定最终的结果，以取得比单个模型更好的性能。集成学习原理小结。

参数优化方法：最小二乘法(OLS)、梯度下降法OLS(Ordinary Least Squares)最小二乘法是一种优化方法，用于求得目标函数的最优值。简单的说就是：让我们的预测值

$equation?tex=%5Chat%7By%7D$ 与真实值

equation?tex=y 总的拟合误差(即总残差)达到最小。损失函数：预测值与真实值总的拟合误差(即总残差)。

过拟合、欠拟合与高阶模型线性回归模型是经典的拟合模型，但是也有天然的缺陷。当线性回归无论如何都无法很好地拟合数据时，可以尝试使用高阶的多项式来进行拟合。

一般来讲，多项式的阶数越高越能完美地拟合数据。

特征选择相关性：考察在我们已有的数据里面的特征x与预测值y的相关度(皮尔逊相关系数r)

迭代：确定要使用哪个算法后，选择最合适的训练子集，从而使得模型的效果最好(暴力解法、迭代增加、迭代减少)

基于模型：通过模型直接得出每个训练特征的重要性的模型，或者是在进行预测时加入的一些正则化调整，从而筛选出最重要的特征(Gini Importance、Mean Decrease Accuracy、正则化Lasso回归)

用sklearn实现机器学习算法

模型性能评估方法

交叉检验k-folds(k折交叉验证法)：将初始数据集分割成 k 份，其中1份被保留作为验证模型的数据，其他 k-1 份用来训练。交叉验证重复 k 次，每份数据作为验证集验证一次，平均 k 次的结果或者使用其它结合方式，最终得到一个单一估测

leave-one-out(留一交叉验证法)：只使用原本样本中的一项来当做验证集，而剩余的则留下来当做训练集。这个步骤一直持续到每个样本都被当做一次验证数据

分类算法的评估方法主要有：ROC，AUC，confusion matrix等。

聚类模型的性能指标主要分为内部指标(Internal Index)和外部指标(External Index)两类。内部指标适用于无标注数据，根据聚类结果中簇内相似度和簇间分离度进行聚类质量评估；而外部指标适用于有标注数据，将聚类结果与已知类标签进行比较。聚类算法评价指标。