机器学习笔记(通俗易懂)---线性模型(分类)算法介绍(5)---附完整代码

本文介绍了线性模型在分类问题中的应用,包括用于回归和多分类的线性模型。线性分类器如逻辑回归和线性支持向量机通过设定阈值进行预测。正则化参数C影响模型复杂度,较小的C导致强正则化,较大的C允许更好的拟合。‘一对其余’方法用于多分类问题,每个类别对应一个二分类模型。线性模型的优点是训练和预测速度快,适合大规模数据,但解释性有限,低维空间表现可能不如其他模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习笔记—线性模型(分类)算法介绍(5)—附完整代码

以下都是本人在学习机器学习过程中的一些心得和笔记,仅供参考。


1.用于回归的线性模型

  • 线性模型也广泛应用于分类问题,预测公式如下:

在这里插入图片描述

这个公式看起来与线性回归公式非常相似,但是我们没有返回特征的加权求和,而是为预测设置了阈值(0)。如果函数值小于0,我们就预测类别-1;若函数值大于0,我们就预测类别+1。

  • 对于用于回归的线性模型,输出y是特征的线性函数,是直线,平面或者超平面(对于更高维的数据集)
  • 对于用于分类的线性模型,决策边界是输入的线性函数。
  • 换句话说,(二元)线性分类器是利用直线,平面或者超平面来分开两个类别的分类器。

学习线性模型有很多算法,这些算法的区别在于以下两点:

  • 系数和截距的特定组合对训练数据拟合好坏的度量方法;
  • 是否使用正则化,以及使用哪种正则化方法。

最常见的两种线性分类算法是**Logistic回归**(logistic regression)和线性支持向量机(linear support vector machine,线性SVM

我们将LogisticRegressionLinearSVC模型应用到forge数据集,并将线性模型找到的决策边界可视化:

from sklearn.linear_model import LogisticRegression
#导入LogisticRegression模型
from sklearn.svm import LinearSVC
#导入LinearSVC模型
import mglearn
import matplotlib.pyplot as plt
X,y=mglearn.datasets.make_forge()
#导入forge数据集
fig,axes = plt.subplots(1,2,figsize=(10,3))
for model,ax in zip([LinearSVC(),LogisticRegression()],axes):
    clf=model.fit(X,y)
    mglearn.plots.plot_2d_separator(clf,X,fill=False,eps=0.5,ax=ax)
    mglearn.discrete_scatter(X[:,0],X[:,1],y,ax=ax)
    ax.set_title("{}".format(clf.__class__.__name__))
    ax.set_xlabel("Feature 0")
    ax.set_ylabel("Feature 1")
axes[0].legend()
plt.show()

在这里插入图片描述

图为 线性SVMLogistic回归在forge数据集上的决策边界

在这张图中,forge数据集的第一个特征位于x轴,第二个特征位于y轴,与前面相同。

位于黑线上方的新数据点被划为类别1,而在黑线下方的数据点会被划为类别0。

  • 两个模型都得到了相似的决策边界,都默认使用L2正则化

对于LogisticRegressionLinearSCV,决定正则化强度的权衡参数叫做C

  • C值越大,对应正则化越弱,也就是说,参数C的值较大,那么两个模型将尽可能将训练集拟合到最好;如果C的值较小,那么模型更强调是系数w接近于0.
  • 参数C的作用还有另一个有趣之处。较小的C可以让算法尽量适应“大多数”数据点,而较大的C值更强调每个数据点都分类正确的重要性。
mglearn.plots.plot_linear_svc_regularization()

在这里插入图片描述

图为 不同C值的线性SVMforge数据集上的决策边界

  • 在左图中,C的值最小,对应强正则化;大部分属于类别0的点都位于底部,大部分属于类别1的点都位于顶部
  • 中间图,C的值较大,模型更关注两个分类错误的样本,使得决策边界的斜率变大;
  • 在右图中,C的值非常大,使得决策边界的斜率变得更大。

与回归的情况类似,用于分类的线性模型在低维空间中看起来肯那个非常受限,决策边界只能是直线或者平面。

同样,在高维空间中,用于分类的线性模型变得非常强大,当考虑更多特征时,避免过拟合变得越来越重要。

  • 在乳腺癌数据集上详细分析LogisticRegression

In

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import matplotlib.py
### 易于理解的《机器学习》(西瓜书)笔记 #### 决策树概述 决策树是一种基于树形结构进行决策的监督学习方法。通过一系列的条件判断,最终到达叶子节点完成分类或回归任务[^1]。 #### 构建决策树的过程 构建一棵决策树是从根节点开始,依据某种特征选择准则不断分裂数据集,创建新的分支直至满足特定终止条件为止。这一过程可以采用递归来实现,使得逻辑清晰明了[^5]。 #### 特征选择的重要性 为了使生成的决策路径尽可能纯净,在每一步都需要挑选最优划分属性。常用的衡量指标有信息增益、基尼指数等,它们帮助确定哪个特性最有利于区分不同类别的样本。 #### 防止过拟合的方法——集成学习之随机森林 单独的一棵决策树可能因为训练过程中偶然因素而变得复杂度过高从而导致过拟合现象发生;为此可以通过建立多个CART(Classification And Regression Trees)并行工作来提高稳定性与准确性。具体做法是在每次抽样时引入一定量噪声干扰以及限制单棵树的最大深度等方式降低个体差异带来的影响[^4]。 #### 偏差-方差权衡原理简介 当评价某个算法的好坏时不仅要考虑其平均表现还要关注波动情况。“偏差-方差分解”理论为我们提供了一个框架用于分析模型误差来源,并指导如何调整参数设置达到最佳效果[^2]。 #### 线性模型的优势特点 尽管非线性关系普遍存在但在很多实际应用场景中简单的线性假设依然能够取得不错的结果。这类模型具备计算效率高、易于理解和解释性强等特点特别适合初学者入门练习使用[^3]。 ```python from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier, plot_tree import matplotlib.pyplot as plt # 加载鸢尾花数据集 data = load_iris() X, y = data.data, data.target # 创建并训练决策树模型 clf = DecisionTreeClassifier(random_state=0) clf.fit(X, y) plt.figure(figsize=(12,8)) plot_tree(clf, filled=True, feature_names=data.feature_names, class_names=data.target_names); ```
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值