机器学习基础——回归(1)

回归

回归的概念

回归分析是指一种预测性的建模技术,主要是研究自变量和因变量的关系。通常使用线/曲线来拟合数据点,然后研究如何使曲线到数据点的距离差异最小。

 

 回归的基本流程

 面对一个回归问题,我们可简要描述其求解流程:

① 选定训练模型,即我们为程序选定一个求解框架,如线性回归模型(Linear Regression)等。

② 导入训练集,即给模型提供大量可供学习参考的正确数据。

③ 选择合适的学习算法,通过训练集中大量输入输出结果让程序不断优化输入数据与输出数据间的关联性,从而提升模型的预测准确度。

④ 在训练结束后即可让模型预测结果,我们为程序提供一组新的输入数据,模型根据训练集的学习成果来预测这组输入对应的输出值。 

线性回归

基础概念

线性回归就是通过通过训练学习得到一个线性模型来最大限度地根据输入x拟合输出y。线性回归学习的关键在于确定参数wb,使得拟合输出y和真实输出y'尽可能接近。

 

最小二乘法(LSM)

基于均方误差最小化求解线性回归参数的常用方法之一。

梯度下降法

 

需要注意的是:梯度下降法找到的只是在当前的点的切平面上下降最快的方向。

二者比较,梯度下降法需要选择学习率α,需要多次迭代,当特征数n大时也能较好适用,适用各种类型的模型;最小二乘法需要一次计算。如果特征数量n较大则运算代价大,同时他只适用于线性模型。

数据归一化/标准化

提升模型精度:不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。

加速模型收敛:最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。

 正则化

L1正则化的原则是样本特性是由少数重要特征决定的,因此将不重要的特征系数归零,只考虑重要特征的系数,所以L1正则化会产生稀疏矩阵。这也是L1正则解决过拟合的原因。

L2正则化的原则,降低系数的值,提高模型的泛化性。如果模型在训练集上拟合的很好,且模型参数的值都很小,这样模型就能在各种数据集上具备很好的泛化性。 

回归的评价指标

 逻辑回归

Sigmoid函数

### 关于机器学习中的回归分析 #### 回归分析的概念 回归分析是一种统计学上研究变量之间相互关系的方法,旨在通过构建数学模型来描述因变量(目标变量)与自变量(特征变量)之间的依赖关系。在机器学习领域内,线性回归是最基础也是最常用的回归方法之一[^1]。 对于给定的数据集 \((X, y)\),其中 \(X\) 表示输入样本矩阵而 \(y\) 是对应的标签向量,线性回归试图找到一条直线使得这条直线上下波动最小化从而最好地拟合这些点的位置分布情况;当存在多个维度时,则寻找超平面来进行最佳匹配。 #### 实现方法和技术栈 为了实现上述提到的各种类型的回归算法,在Python编程环境中可以借助多种库完成: - **Pandas**: 提供高效灵活的数据结构以及数据分析工具,方便读取、清洗并预处理原始数据文件; - **Scikit-Learn (sklearn)**: 这是一个非常流行的开源软件包,它实现了众多经典的监督式和非监督式的机器学习算法,并提供了简单易用的应用接口以便快速搭建实验环境或生产系统; 下面给出一段简单的代码片段展示如何利用scikit-learn进行线性回归建模过程: ```python from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression import pandas as pd # 加载数据集 data = pd.read_csv('your_dataset.csv') X = data.drop(columns=['target']) y = data['target'] # 划分训练集测试集 X_train, X_test, y_train, y_test = train_test_split(X, y) # 创建模型实例 model = LinearRegression() # 训练模型 model.fit(X_train, y_train) # 输出模型参数 print(f'Coefficients: {model.coef_}') print(f'Intercept: {model.intercept_}') # 预测新数据的结果 predictions = model.predict(X_test) ``` 此外还有其他一些重要的组件如`matplotlib` 和 `seaborn` 可用于绘制图表辅助理解数据特性及验证模型效果等操作[^2]。 #### 应用场景举例 回归分析广泛应用于各个行业当中解决实际问题,以下是几个典型例子: - **房价预测**:基于房屋面积大小、地理位置等因素估计房产价值; - **销售额度估算**:根据历史销售记录推测未来某段时间内的收入水平; - **医疗健康监测**:依据患者生理指标变化趋势判断疾病发展趋势或者治疗方案的有效程度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值