【MOOC】Python机器学习应用-北京理工大学 - 【第二周】有监督学习

最新推荐文章于 2025-03-06 09:45:00 发布

原创

最新推荐文章于 2025-03-06 09:45:00 发布 · 8.8k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #应用

本文介绍了Python机器学习中的有监督学习，包括分类和回归任务，详细讲解了分类中的K近邻、决策树、朴素贝叶斯算法以及sklearn库中的实现。同时，通过实例分析了分类在人体运动状态预测和上证指数涨跌预测中的应用，探讨了不同算法的优劣。此外，还讨论了线性回归、多项式回归以及岭回归在回归任务中的应用，以交通流量预测为例展示了多项式回归的优势。最后，通过全连接神经网络和KNN在手写数字识别中的应用，展示了不同模型在实际问题中的性能差异。

本周课程导学

监督学习的目标

利用一组带有标签的数据，学习从输入到输出的映射，然后将这种映射关系应用到未知数据上，达到分类或回归的目的。

分类：当输出是离散的，学习任务为分类任务。
回归：当输出是连续的，学习任务为回归任务。

分类学习

这里写图片描述

• 输入：一组有标签的训练数据(也称观察和评估)，标签表明了这些数据（观察）的所署类别。

• 输出：分类模型根据这些训练数据，训练自己的模型参数，学习出一个适合这组数据的分类器，当有新数据（非训练数据）需要进行类别判断，就可以将这组新数据作为输入送给学好的分类器进行判断。

• 训练集(training set): 顾名思义用来训练模型的已标注数据，用来建立模型，发现规律。

• 测试集(testing set): 也是已标注数据，通常做法是将标注隐藏，输送给训练好的模型，通过结果与真实标注进行对比，评估模型的学习能力。

训练集/测试集的划分方法：根据已有标注数据，随机选出一部分数据（70%）数据作为训练数据，余下的作为测试数据，此外还有交叉验证法，自助法用来评估分类模型。

->评价标准

精确率：

是针对我们预测结果而言的，（以二分类为例）它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，也就是：P=TP/(TP+FP)

召回率：

是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(TN)，也就是：P=TP/(TP+TN)

举例：
假设我们手上有60个正样本，40个负样本，我们要找出所有的正样本，分类算法查找出50个，其中只有40个是真正的正样本。

TP: 将正类预测为正类数 40；
TN: 将正类预测为负类数 20；
FP: 将负类预测为正类数 10；
FN: 将负类预测为负类数 30。

准确率（accuracy）= (TP+FN)/(TP+FN+FP+TN) =(40+30)/100=70%
精确率（precision）=TP/(TP+FP)=40/(50)=80%
召回率（recall）=TP/(TP+TN)=40/60=66.7%

->应用

 金融：贷款是否批准进行评估

 医疗诊断：判断一个肿瘤是恶性还是良性

 欺诈检测：判断一笔银行的交易是否涉嫌欺诈

 网页分类：判断网页的所属类别，财经或者是娱乐？

sklearn中的分类算法

与聚类算法被统一封装在sklearn.cluster模块不同，sklearn库中的分类算法并未被统一封装在一个子模块中，因此对分类算法的import方式各有不同。

Sklearn提供的分类函数包括：

• k近邻（knn）

• 朴素贝叶斯（naivebayes）

• 支持向量机（svm）

• 决策树（decision tree）

• 神经网络模型（Neural networks）等

• 这其中有线性分类器，也有非线性分类器。

回归分析

这里写图片描述

回归：

统计学分析数据的方法，目的在于了解两个或多个变数间是否相关、研究其相关方向与强度，并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。

回归分析可以帮助人们了解在自变量变化时因变量的变化量。一般来说，通过回归分析我们可以由给出的自变量估计因变量的条件期望。

->应用

回归方法适合对一些带有时序信息的数据进行预测或者趋势拟合，常用在金融及其他涉及时间序列分析的领域：

• 股票趋势预测

• 交通流量预测

sklearn中的回归算法

Sklearn提供的回归函数主要被封装在两个子模块中，分别是sklearn.linear_model和sklearn.preprocessing。

sklearn.linear_modlel封装的是一些线性函数，线性回归函数包括有：

• 普通线性回归函数（ LinearRegression ）
• 岭回归（Ridge）
• Lasso（Lasso）

非线性回归函数，如多项式回归（PolynomialFeatures）则通过sklearn.preprocessing子模块进行调用。

单元4：分类

首先介绍交叉验证和几个基本的分类器模型。

4.0.交叉验证

基本思想：

交叉验证法先将数据集D划分为k个大小相似的互斥子集，每个自己都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这个k个测试结果的均值。通常把交叉验证法称为“k者交叉验证” , k最常用的取值是10，此时称为10折交叉验证。

这里写图片描述

4.1.K近邻分类器(KNN)

KNN：通过计算待分类数据点，与已有数据集中的所有数据点的距离。取距离最小的前K个点，根据“少数服从多数“的原则，将这个数据点划分为出现次数最多的那个类别。

这里写图片描述

4.2.sklearn中的K近邻分类器

在sklearn库中，可以使用sklearn.neighbors.KNeighborsClassifier创建一个K近邻分类器，主要参数有：

• n_neighbors：用于指定分类器中K的大小(默认值为5，注意与kmeans的区别)

• weights：设置选中的K个点对分类结果影响的权重（默认值为平均权重“uniform”，可以选择“distance”代表越近的点权重越高，或者传入自己编写的以距离为参数的权重计算函数）

• algorithm：设置用于计算临近点的方法，因为当数据量很大的情况下计算当前点和所有点的距离再选出最近的k各点，这个计算量是很费时的，所以（选项中有ball_tree、 kd_tree和brute，分别代表不同的寻找邻居的优化算法，默认值为auto，根据训练数据自动选择）

->使用方法

举例：

from sklearn.neighbors import KNeighborsClassifier
#创建一组数据 X 和它对应的标签 y
X=[[0],[1],[2],[3]]
y=[0,0,0,1]
#使用最近的3个邻居作为分类的依据，得到分类器
neigh = KNeighborsClassifier(n_neighbors=3)
#将训练数据 X 和 标签 y 送入分类器进行学习
neigh.fit(X, y)
#调用 predict() 函数，对未知分类样本 [1.1] 分类，可以直接并将需要分类
#的数据构造为数组形式作为参数传入，得到分类标签作为返回值
print(neigh.predict([[1.1]]))

样例输出值是 0，表示K近邻分类器通过计算样本 [1.1] 与训练数据的距离，取 0,1,2 这 3 个邻居作为依据，根据“投票法”最终将样本分为类别 0。

->使用经验

在实际使用时，我们可以使用所有训练数据构成特征 X 和标签 y，使用fit() 函数进行训练。

在正式分类时，通过一次性构造测试集或者一个一个输入样本的方式，得到样本对应的分类结果。

有关K 的取值：

• 如果较大，相当于使用较大邻域中的训练实例进行预测，可以减小估计误差，但是距离较远的样本也会对预测起作用，导致预测错误。

• 相反地，如果 K 较小，相当于使用较小的邻域进行预测，如果邻居恰好是噪声点，会导致过拟合。

• 一般情况下，K 会倾向选取较小的值，并使用交叉验证法选取最优 K 值。

4.3.决策树

决策树是一种树形结构的分类器，通过顺序询问分类点的属性决定分类点最终的类别。通常根据特征的信息增益或其他指标，构建一颗决策树。在分类时，只需要按照决策树中的结点依次进行判断，即可得到样本所属类别。

举例：

根据下图这个构造好的分类决策树，一个无房产，单身，年收入55K的人的会被归入无法偿还信用卡这个类别。
这里写图片描述

4.4.sklearn中的决策树

在sklearn库中，可以使用sklearn.tree.DecisionTreeClassifier创建一个决策树用于分类，其主要参数有：

• criterion ：用于选择属性的准则，可以传入“gini”代表基尼系数，或者“entropy”代表信息增益。

• max_features ：表示在决策树结点进行分裂时，从多少个特征中选择最优特征。可以设定固定数目、百分比或其他标准。它的默认值是使用所有特征个数。

->使用方法

举例：

#导入鸢尾花数据集、决策树分类器、计算交叉验证值的函数 cross_val_score
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
#使用默认参数，创建一颗基于基尼系数的决策树，并将该决策树分类器赋值给变量 clf
clf = DecisionTreeClassifier()
iris = load_iris()
'''
这里我们将决策树分类器做为待评估的模型，iris.data鸢尾花数据做为特征，
iris.target鸢尾花分类标签做为目标结果，通过设定cv为10，使用10折交叉验
证。得到最终的交叉验证得分。
'''
print(cross_val_score(clf, iris.data, iris.target, cv=10))

输出：

[ 1.          0.93333333  1.          0.93333333  0.93333333  0.86666667
  0.93333333  0.93333333  1.          1.        ]

当然也可以使用如下的这种形式训练分类器并对测试集进行预测：

clf.fit(X, y)
clf.predict(x)

->使用经验

• 决策树本质上是寻找一种对特征空间上的划分，旨在构建一个与训练数据相拟合并复杂度小的决策树。

• 在实际使用中，需要根据数据情况，调整DecisionTreeClassifier类中传入的参数，比如选择合适的criterion，设置随机变量等。

4.5.朴素贝叶斯

朴素贝叶斯分类器是一个以贝叶斯定理为基础的多分类的分类器。

对于给定数据，首先基于特征的条件独立性假设，学习输入输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

这里写图片描述

4.6.sklearn中的朴素贝叶斯

在sklearn库中，实现了三个朴素贝叶斯分类器，如下表所示：

这里写图片描述

区别在于假设某一特征的所有属于某个类别的观测值符合特定分布，如，分类问题的特征包括人的身高，身高符合高斯分布，这类问题适合高斯朴素贝叶斯。

在sklearn库中，可以使用sklearn.naive_bayes.GaussianNB创建一个高斯朴素贝叶斯分类器，其参数有：

• priors ：给定各个类别的先验概率。如果为空，则按训练数据的实际情况进行统计；如果给定先验概率，则在训练过程中不能更改。

->使用方法

举例：

import numpy as np
from sklearn.naive_bayes import GaussianNB
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
Y = np.array([1, 1, 1, 2, 2, 2])
#使用默认参数，创建一个高斯朴素贝叶斯分类器，并将该分类器赋给变量clf
clf = GaussianNB(priors=None)
clf.fit(X, Y)
print(clf.predict([[-0.8, -1]]))