线性回归模型常见面试题

一、 线性回归模型

1 简单介绍下线性回归?
答:线性回归属于监督学习模型,它通过建立一个线性模型来预测一个数值型因变量和一个或者多个自变量之间的关系,使预测值和真实值尽可能接近。优点:简单易懂、可解释性强、易于实现和快速训练等。

2 线性回归的5大假设是什么?
答:
1) 自变量与因变量存在线性关系。
2) 自变量相互独立:如果一个自变量受到另一个自变量的影响,则会出现多重共线性,导致模型无法准确预测。
3)多元正态性:所有变量的取值服从多元正态分布。这意味着,自变量和因变量的误差服从正态分布。
4)同方差性:自变量的方差是恒定的,自变量对因变量的影响在整个数据集上都是相同的。
5)残差的独立性:误差项之间是相互独立的,并且它们不予预测值相关联。

3 线性回归要求因变量符合正态分布?
答:当因变量满足正态分布假设时,我们可以利用极大似然估计来确定参数的值,而不是通过试错的方式寻找最优解。此外,正态分布假设还允许应用一些基于统计学原理的推论,如置信区间和假设检验等,这对于评估模型的可靠性和有效性非常重要。

4 线性回归为啥做分类不好?
答:
1)线性回归模型预测离散值时表现较差,线性回归模型可以生成任何实数作为输出,但分类问题需要返回离散值。可以将线性回归输出的值映射到分类,并将其视为二进制或者多类输出,但这可能会导致严重的错误分类。
2)不符合分类假设:分类建假设要求分类目标具有离散概率分布。
3)对异常值比较敏感:线性回归假设数据点遵循正态分布,并且在函数空间中拟合回归直线,但当出现异常值时,这些数据点可能会扭曲回归线的形状,并导致预测不准确。

4.1为什么分类建假设要求分类目标具有离散概率分布?
答:分类模型的目标是将给定的每个样本分配到事先定义好的不同类别中。因为分类问题涉及到对类别的确定性和置信度,所以通常需要建立一个概率模型来描述不同类别出现的可能性,而这就需要假设分类目标具有离散概率分布。

5 线性回归的损失函数是什么?
答:线性回归的损失函数通常是平方误差损失函数。
6 线性回归的求解方法有哪些?
答:
1)最小二乘法:这种方法是线性回归最常见的求解方法之一。最小二乘法的基本思想是找到一条直线,使得所有样本点到该直线距离之和最小
2)梯度下降法:梯度下降法是一种常用的优化算法,在线性回归中也可以用来求解模型参数。梯度下降法的基本思想是通过迭代更新模型参数,使得损失函数不断减小。

6.1 最小二乘法
答:最小二乘法其实就是用来做函数拟合的一种思想,通过矩阵近似求解线性函数的参数值。优点:简单易懂、易于解释。缺点:1.当特征数据量特别时,计算消耗非常大。2.有可能不存在逆矩阵。3.如果拟合函数不是线性,这时无法使用最小二乘法。

7 线性回归在业界用的不多的原因有哪些?
答:1.非线性:工业数据线性回归变量和因变量一般是非线性关系。2.异常值:线性回归模型容易过拟合,导致线下拟合效果好,而线上拟合效果差。3.多重共线性:在回归分析中,则可能会出现所谓的多重共线性问题。这会导致回归结果的误差变大,并使得预测变量的效果难以准确评估。通常采用去核方法、引入惩罚项等方式解决该问题。
8 为什么进行线性回归前需要对特征进行离散化处理?
答:1.改善非线性问题:2.提高模型的运行效率: 3.让模型更加稳定。
9 线性回归时如果数据量太大导致无法一次读进内存如何解决?
答:1.分块读取数据。2.随机梯度下降算法:因为他每次只使用一个样本训练模型,避免全部数据同时参与计算。这种方法可以加速训练过程,且可以处理非常大规模的数据。
10 线性回归中的R方(r²)是什么意思?
答:在线性回归中,r²是衡量回归方程对观测数据的拟合优度的一种统计量。r²最大值为1.0,表示该模型可以完美地预测所有的响应变量。而r²的最小值为0,表示该模型与响应变量之间没有线性关系。
11 相关系数和r²的关系?
答:相关系数是用来测量两个连续变量之间线性相关程度的统计指标,常用的有皮尔逊相关系数和斯皮尔曼相关系数等。r²表示模型对数据的拟合程度。在线性中皮尔逊相关系数的平方等于r²,但是在非线性中两者不存在关系。
13 线性回归中的多重共线性是什么意思,有什么危害?
答:多重共线性指的自变量之间存在高度相关性的情况,即一个自变量可以被其它自变量所解释。当模型中存在多重共线性是,会导致以下问题:
1)模型参数不稳定:由于多个自变量之间高度相关,因此很难确定每个自变量的确切贡献。当数据有微小的变动,都可能导致显著的变动。
2)参数估计和验证结果失真:变量存在关系,会导致另一个变量没做出贡献,导致误差增加。

14 共线性变量的处理有哪些方法?
答:1. 通过correlation matrix (相关矩阵) 检查数据集之间的线性关系,去除关系较强的特征。2.在ridge regression/lasso: 当回归中参数发散时,增加惩罚项。3.利用pca进行降维。
14 线性回归优缺点?
答:优点:简单易于实现、解释性强。缺点:限制于线性相关、对异常值铭感。
18 请简单说下Lasso和Ridge的区别?
答:1. 目标函数不同 ,Lasson在原始目标函数基础上加上l1正则项,Ridge在原始目标函数基础上减小了l2正则项。2. 正则方式不同,lasso使用l1正则化,可以促使一些系数变为0,因此可以实现特征选择;ridge使用l2正则化,可以减缓参数的增长并控制过拟合。
15 Ridge回归和Lasson回归的使用场景
答:lasson和ridge虽然都是用于线性回归的正则化方法,但它们的目标函数和正则化方式不同,因此分别适用于不同的应用场景。当数据具有稀疏性(即许多特征系数接近于0)时,lasso通常表现出更好的效果;当需要在模型中保留所有特征,但又不想让系数过大时,ridge更合适。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值