一 线性模型
线性模型是机器学习中最基本和最常用的一类模型,假设输出变量是输入变量的线性组合。线性模型在许多实际应用中表现良好,并且为更复杂的模型(如非线性模型、深度学习模型)奠定了理论基础;优点是简单易懂,易于实现和解释,计算复杂度低,适合大规模数据;缺点是不能处理复杂的非线性关系,容易受到异常值的影响,可能出现过拟合或欠拟合,需要正则化处理。
线性模型假设输出y是输入变量 x=[x1,x2,…,xn]的线性组合,加上一个常数项(截距项)和噪声项:y=wTx+b+ϵ,其中:
w=[w1,w2,…,wn]是权重向量;
b是截距(bias)或偏置项;
ϵ是噪声项,通常假设服从正态分布。
1 主要类型
1)线性回归(Linear Regression):拟合一个线性函数来预测连续目标变量。
模型表达式:y=wTx+b
损失函数:最小化均方误差(MSE),MSE=1/m {∑i=1m(yi−(wTxi+b))2}
优化方法:梯度下降、正规方程、最小二乘法等。
2)逻辑回归(Logistic Regression):用于分类问题,通过sigmoid函数将线性组合映射到[0,1]之间,表示概率。
模型表达式:y= σ(wTx+b),σ(z) =1/(1 + e-z)
损失函数:对数似然损失,Loss=−1/m {∑i=1m [yilog(^yi)+(1−yi)log(1−^yi)]}
优化方法:梯度下降、牛顿法等。
3)Ridge回归:在线性回归基础上添加L2正则化,减少过拟合。
模型表达式:y=wTx+b
损失函数:最小化正则化的均方误差,Loss=1/m {∑i=1m [yi−(wTxi+b)]2+ λ∥w∥2}
4)Lasso回归:在线性回归基础上添加L1正则化,实现特征选择。
模型表达式:y=wTx+b
损失函数:最小化正则化的均方误差,Loss=1/m {∑i=1m [yi−(wTxi+b)]2+ λ∥w∥1}
2 建模和训练方法
数据预处理:标准化,将数据进行标准化处理,使得每个特征均值为0,方差为1;特征选择,选择对目标变量有显著影响的特征。
训练过程
- 初始化参数(权重和截距);
- 计算损失函数的梯度;
- 更新参数:根据梯度和学习率,使用优化算法(如梯度下降)更新参数;
- 迭代上述过程,直到损失函数收敛或达到最大迭代次数。
二 决策树
决策树是一种用于分类和回归的非参数监督学习方法,以树状结构表示决策过程,通过对特征进行条件判断来预测目标变量。决策树易于理解和解释,结果具有直观的可视化,能够处理数值型和类别型数据和多输出问题,对缺失值不敏感,可以容忍一定程度的缺失数据。但决策树容易过拟合,需剪枝处理;对噪声数据敏感,容易受极端值影响;在处理类别较多的数据集时,树的构建可能会变得复杂且计算量大。
1 决策树的构建
决策树的构建过程通过递归地选择最优特征来分割数据集,使得每次分割能够最大化地减少数据的不纯度或不确定性。
1)特征选择标准
信息增益:基于熵(Entropy)的变化量来选择特征,常用ID3算法。
InfoGain(D, A) = Entropy(D) - ∑v∈Values(A)(∣Dv∣/∣D∣)Entropy(Dv)
信息增益率:修正了信息增益偏好多值特征的问题,常用C4.5算法。
GainRatio(D, A) = InfoGain(D, A) / SplitInfo(D, A)
基尼指数:基于基尼不纯度选择特征,常用CART算法。
Gini(D) = 1 - ∑K=1K (pk)^2
2)树的构建过程
2.1)从根节点开始,计算所有特征的选择标准(如信息增益)。
2.2)选择最优特征,根据该特征的不同取值分割数据集。
2.3)为每个子集递归地构建子树,重复步骤1和2,直到满足停止条件。
3)停止条件
- 所有样本属于同一类别。
- 特征集为空或没有更多特征可分割。
- 达到最大树深度或最小样本数。
2 决策树的剪枝
决策树在训练过程中容易过拟合,为了提高泛化能力,需要进行剪枝,分为前剪枝和后剪枝。
1)前剪枝:在构建过程中提前停止树的生长。
- 设置最大树深度。
- 设置叶节点的最小样本数。
- 设置信息增益阈值。