[机器学习]-2 经典机器学习算法

行置水穷处

于 2024-06-25 17:47:13 发布

阅读量829

点赞数 32

文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wendywm0496/article/details/139964913

版权

一线性模型

线性模型是机器学习中最基本和最常用的一类模型，假设输出变量是输入变量的线性组合。线性模型在许多实际应用中表现良好，并且为更复杂的模型（如非线性模型、深度学习模型）奠定了理论基础；优点是简单易懂，易于实现和解释，计算复杂度低，适合大规模数据；缺点是不能处理复杂的非线性关系，容易受到异常值的影响，可能出现过拟合或欠拟合，需要正则化处理。

线性模型假设输出y是输入变量 x=[x1,x2,…,xn]的线性组合，加上一个常数项（截距项）和噪声项：y=wTx+b+ϵ，其中：

w=[w1,w2,…,wn]是权重向量；

b是截距（bias）或偏置项；

ϵ是噪声项，通常假设服从正态分布。

1 主要类型

1）线性回归（Linear Regression）：拟合一个线性函数来预测连续目标变量。

模型表达式：y=wTx+b

损失函数：最小化均方误差（MSE），MSE=1/m {∑i=1m(yi−(wTxi+b))2}

优化方法：梯度下降、正规方程、最小二乘法等。

2）逻辑回归（Logistic Regression）：用于分类问题，通过sigmoid函数将线性组合映射到[0,1]之间，表示概率。

模型表达式：y= σ(wTx+b)，σ(z) =1/（1 + e-z）

损失函数：对数似然损失，Loss=−1/m {∑i=1m [yilog(^yi)+(1−yi)log(1−^yi)]}

优化方法：梯度下降、牛顿法等。

3）Ridge回归：在线性回归基础上添加L2正则化，减少过拟合。

模型表达式：y=wTx+b

损失函数：最小化正则化的均方误差，Loss=1/m {∑i=1m [yi−(wTxi+b)]2+ λ∥w∥2}

4）Lasso回归：在线性回归基础上添加L1正则化，实现特征选择。

模型表达式：y=wTx+b

损失函数：最小化正则化的均方误差，Loss=1/m {∑i=1m [yi−(wTxi+b)]2+ λ∥w∥1}

2 建模和训练方法

数据预处理：标准化，将数据进行标准化处理，使得每个特征均值为0，方差为1；特征选择，选择对目标变量有显著影响的特征。

训练过程

- 初始化参数（权重和截距）；

- 计算损失函数的梯度；

- 更新参数：根据梯度和学习率，使用优化算法（如梯度下降）更新参数；

- 迭代上述过程，直到损失函数收敛或达到最大迭代次数。

二决策树

决策树是一种用于分类和回归的非参数监督学习方法，以树状结构表示决策过程，通过对特征进行条件判断来预测目标变量。决策树易于理解和解释，结果具有直观的可视化，能够处理数值型和类别型数据和多输出问题，对缺失值不敏感，可以容忍一定程度的缺失数据。但决策树容易过拟合，需剪枝处理；对噪声数据敏感，容易受极端值影响；在处理类别较多的数据集时，树的构建可能会变得复杂且计算量大。

1 决策树的构建

决策树的构建过程通过递归地选择最优特征来分割数据集，使得每次分割能够最大化地减少数据的不纯度或不确定性。

1）特征选择标准

信息增益：基于熵（Entropy）的变化量来选择特征，常用ID3算法。

InfoGain(D, A) = Entropy(D) - ∑v∈Values(A)(∣Dv∣/∣D∣)Entropy(Dv)

信息增益率：修正了信息增益偏好多值特征的问题，常用C4.5算法。

GainRatio(D, A) = InfoGain(D, A) / SplitInfo(D, A)

基尼指数：基于基尼不纯度选择特征，常用CART算法。

Gini(D) = 1 - ∑K=1K (pk)^2

2）树的构建过程

2.1）从根节点开始，计算所有特征的选择标准（如信息增益）。

2.2）选择最优特征，根据该特征的不同取值分割数据集。

2.3）为每个子集递归地构建子树，重复步骤1和2，直到满足停止条件。

3）停止条件

- 所有样本属于同一类别。

- 特征集为空或没有更多特征可分割。

- 达到最大树深度或最小样本数。

2 决策树的剪枝

决策树在训练过程中容易过拟合，为了提高泛化能力，需要进行剪枝，分为前剪枝和后剪枝。

1）前剪枝：在构建过程中提前停止树的生长。

- 设置最大树深度。

- 设置叶节点的最小样本数。

- 设置信息增益阈值。

最低0.47元/天解锁文章

行置水穷处

博客等级

码龄8年

36
原创

802
点赞

697
收藏

771
粉丝

关注

私信

热门文章

上一篇：: [机器学习]-1 概要介绍

下一篇：: [机器学习]-3 万字话清从传统神经网络到深度学习

最新评论

[自动驾驶技术]-6 Tesla自动驾驶方案之硬件（AI Day 2021）
征途黯然.: I've learned a lot from this article about 自动驾驶技术6Tesla自动驾驶方案之硬件AIDay2021; it has great depth.
[自动驾驶技术]-5 Tesla自动驾驶方案之算法（AI Day 2021）
优快云-Ada助手: 恭喜您在自动驾驶技术领域的持续探索与分享！这篇关于Tesla自动驾驶方案算法的博客内容丰富，让读者对AI Day 2021有了更深入的了解。希望您在未来的创作中可以继续深挖各家自动驾驶技术方案的特点与优劣势，或者结合实际案例进行更具深度的讨论。期待您的下一篇作品！
[自动驾驶技术]-6 Tesla自动驾驶方案之硬件（AI Day 2021）
优快云-Ada助手: 恭喜您撰写了第13篇博客，内容涵盖了Tesla自动驾驶方案的硬件部分，对于关注自动驾驶技术的读者们必定是一篇极具价值的文章。在下一篇博客中，或许可以深入探讨一下Tesla自动驾驶方案的软件部分，或是与其他品牌的自动驾驶技术进行比较分析，以便读者们更全面地了解这一领域的发展情况。希望您能继续保持创作热情，为大家带来更多有趣且有价值的内容。
[自动驾驶技术]-4 决策规划系统
优快云-Ada助手: 恭喜作者第11篇博客《[自动驾驶技术]-4 决策规划系统》的发布！内容涉及决策规划系统，非常深入和专业。在自动驾驶技术领域的探索与分享让人受益匪浅。希望作者在未来的创作中可以继续深挖自动驾驶技术的细节，例如与人工智能的结合、实践案例的分析等方面，以期能够给读者带来更多的启发和收获。期待您的下一篇精彩作品！
[自动驾驶技术]-2 感知系统之传感器功能和网络方案
优快云-Ada助手: 恭喜作者发布了第8篇博客！文章内容关于自动驾驶技术中感知系统的传感器功能和网络方案，非常有深度和实用性。希望作者在未来的创作中能够继续深入挖掘这一领域的知识，为读者带来更多有价值的内容。建议作者可以结合实际案例或者最新研究进展，进一步探讨感知系统在自动驾驶技术中的应用和发展趋势，期待更多精彩的文章！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。