逻辑回归要点(个人观点,不一定正确)

本文深入探讨了逻辑回归模型在可能性预测场景中的应用,包括其优势、限制以及与其他模型的区别。着重解释了逻辑回归如何计算相对可能性而非概率,适合于求解TopN问题,并指出其仅适用于线性问题的局限。文章还讨论了特征间的独立性和逻辑回归与决策树在分析数据结构方面的差异,提出结合决策树和逻辑回归的方法以提高预测效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

不是搞算法的,但最近用到这个,所以按个人的理解总结一下要点,可能有理解上的错误,欢迎指正批评。

目前场景是用于可能性预测。

1.逻辑回归模型计算出来的是相对可能性,而非概率,所以非常适合topN选择等问题;如果用于分类,则其用于分割的阈值通过指标参数确定。总体上来说,更适合求topN。

2.仅能用于线性问题,其实很多数学不是很好的人,对这个理解不深入,在使用Logistic Regression时注意选择和target呈线性关系的feature。预先知道模型非线性时,果断不使用Logistic Regression,切勿以为随便塞入feature、维度足够多就总会得到一个较为靠谱的模型。其终究是线性拟合,只是对规律的简单近似,不符合哪些明显其它相关性函数的场景。

3.各feature之间不需要满足条件独立假设,但各个feature的贡献是独立计算的。对相关的条件,会自动通过训练分配参数。但LR是不会自动帮你combine 不同的features产生新feature(组合feature),而我们在做可能性预测时,组合feature正要性更高,所以千万别偷懒。

4.决策树等和逻辑回归的分歧是:逻辑回归对数据整体结构的分析优于决策树,而决策树对局部结构的分析优于逻辑回归。逻辑回归擅长分析线性关系,而决策树对线性关系的把握较差。虽然对付非线性关系是决策树的强项,但是很多非线性关系完全可以用线性关系作为近似,而且效果很好。线性关系在实践中有很多优点:简洁,易理解,可以在一定程度上防止对数据的过度拟合。逻辑回归对极值比较敏感,容易受极端值的影响(因为所有样本在最终的模型中相互影响),而决策树在这方面表现较好。

5.决策树由于采用分割的方法,所以能够深入数据细部,但同时失去了对全局的把握。一个分层一旦形成,它和别的层面或节点的关系就被切断了,以后的挖掘只能在局部中进行。同时由于切分,样本数量不断萎缩,所以无法支持对多变量的同时检验。而逻辑回归,始终着眼整个数据的拟合,所以对全局把握较好。但无法兼顾局部数据,或者说缺乏探查局部结构的内在机制。

6.利用决策树对局部数据结构优越的把握能力增加逻辑回归的效力。在具体做法上有几种,一种是从决策树分析中找出数据局部结构,作为在逻辑回归中构建依变量(interaction)的依据。另一种是在需要对预测因子进行离散化处理时,利用决策树分析决定最佳切分点。还有一种是把决策树分类的最终结果作为预测变量,和其他协变量一起代入回归模型,又称为“嫁接式模型”。从理论上讲,嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构,而协变量可以拾补被决策树遗漏的数据整体结构。

 

转载于:https://www.cnblogs.com/fernnix/p/4100871.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值