[机器学习]-2 经典机器学习算法

一 线性模型

线性模型是机器学习中最基本和最常用的一类模型,假设输出变量是输入变量的线性组合。线性模型在许多实际应用中表现良好,并且为更复杂的模型(如非线性模型、深度学习模型)奠定了理论基础;优点是简单易懂,易于实现和解释,计算复杂度低,适合大规模数据;缺点是不能处理复杂的非线性关系,容易受到异常值的影响,可能出现过拟合或欠拟合,需要正则化处理。

线性模型假设输出y是输入变量 x=[x1,x2,…,xn]的线性组合,加上一个常数项(截距项)和噪声项:y=wTx+b+ϵ,其中:

w=[w1,w2,…,wn]是权重向量;

b是截距(bias)或偏置项;

ϵ是噪声项,通常假设服从正态分布。

1 主要类型

1)线性回归(Linear Regression):拟合一个线性函数来预测连续目标变量。

模型表达式:y=wTx+b

损失函数:最小化均方误差(MSE),MSE=1/m {∑i=1m(yi−(wTxi+b))2}

优化方法:梯度下降、正规方程、最小二乘法等。

2)逻辑回归(Logistic Regression):用于分类问题,通过sigmoid函数将线性组合映射到[0,1]之间,表示概率。

模型表达式:y= σ(wTx+b),σ(z) =1/(1 + e-z)

损失函数:对数似然损失,Loss=−1/m {∑i=1m [yilog(^yi)+(1−yi)log(1−^yi)]}

优化方法:梯度下降、牛顿法等。

3)Ridge回归:在线性回归基础上添加L2正则化,减少过拟合。

模型表达式:y=wTx+b

损失函数:最小化正则化的均方误差,Loss=1/m {∑i=1m [yi−(wTxi+b)]2+ λ∥w∥2}

4)Lasso回归:在线性回归基础上添加L1正则化,实现特征选择。

模型表达式:y=wTx+b

损失函数:最小化正则化的均方误差,Loss=1/m {∑i=1m [yi−(wTxi+b)]2+ λ∥w∥1}

2 建模和训练方法

数据预处理:标准化,将数据进行标准化处理,使得每个特征均值为0,方差为1;特征选择,选择对目标变量有显著影响的特征。

训练过程

   - 初始化参数(权重和截距);

   - 计算损失函数的梯度;

   - 更新参数:根据梯度和学习率,使用优化算法(如梯度下降)更新参数;

   - 迭代上述过程,直到损失函数收敛或达到最大迭代次数。

二 决策树

决策树是一种用于分类和回归的非参数监督学习方法,以树状结构表示决策过程,通过对特征进行条件判断来预测目标变量。决策树易于理解和解释,结果具有直观的可视化,能够处理数值型和类别型数据和多输出问题,对缺失值不敏感,可以容忍一定程度的缺失数据。但决策树容易过拟合,需剪枝处理;对噪声数据敏感,容易受极端值影响;在处理类别较多的数据集时,树的构建可能会变得复杂且计算量大。

1 决策树的构建

决策树的构建过程通过递归地选择最优特征来分割数据集,使得每次分割能够最大化地减少数据的不纯度或不确定性。

1)特征选择标准

信息增益:基于熵(Entropy)的变化量来选择特征,常用ID3算法。

InfoGain(D, A) = Entropy(D) - ∑v∈Values(A)(∣Dv∣/∣D∣)Entropy(Dv)

信息增益率:修正了信息增益偏好多值特征的问题,常用C4.5算法。

GainRatio(D, A) = InfoGain(D, A) / SplitInfo(D, A)

基尼指数:基于基尼不纯度选择特征,常用CART算法。

Gini(D) = 1 - ∑K=1K (pk)^2

    

2)树的构建过程

2.1)从根节点开始,计算所有特征的选择标准(如信息增益)。

2.2)选择最优特征,根据该特征的不同取值分割数据集。

2.3)为每个子集递归地构建子树,重复步骤1和2,直到满足停止条件。

3)停止条件

   - 所有样本属于同一类别。

   - 特征集为空或没有更多特征可分割。

   - 达到最大树深度或最小样本数。

2 决策树的剪枝

决策树在训练过程中容易过拟合,为了提高泛化能力,需要进行剪枝,分为前剪枝和后剪枝。

1)前剪枝:在构建过程中提前停止树的生长。

   - 设置最大树深度。

   - 设置叶节点的最小样本数。

   - 设置信息增益阈值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值