12、数据科学工具与方法深度解析

数据科学工具与方法深度解析

1. SVM与合页损失的关系

在数据科学的分类模型中,逻辑回归和支持向量机(SVM)都是常用的判别模型,但它们优化的目标函数不同。逻辑回归的损失函数从概念上讲是所有点的函数。正确分类的点对损失函数的贡献很小,如果这些点靠近边界,则贡献会增加。因此,靠近边界的点对损失以及确定边界的优劣更为重要。

而SVM使用合页损失(hinge loss),从概念上更强调边界点。由于函数中的“合页”(即最大值)特性,任何比最近点更远的点对损失没有贡献。这些最近的点就是支持向量。SVM实际上就是要找到一个能创建最大间隔(到最近点的距离)的边界,理论认为边界情况对模型的泛化能力最为关键。

不过,合页损失不可微,这意味着需要更多的数学方法(如拉格朗日乘数法)来优化它。并且,SVM难以处理数据线性不可分的情况,而松弛变量(slack variables)则是一种将这种可能性干净地纳入优化问题的技巧。此外,合页损失也可以用于“深度学习”,相关研究可参考 该论文

以下是SVM与逻辑回归的对比表格:
| 模型 | 损失函数重点 | 对边界点的处理 | 可微性 | 处理线性不可分情况 |
| ---- | ---- | ---- | ---- | ---- |
| 逻辑回归 | 所有点,但边界点更重要 | 靠近边界点贡献大 | 可微 | 较难 |
| SVM | 边界点(支持向量) | 非支持向量无贡献 | 不可微 | 需松弛变量 |

2. Google预测API的训练/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值