4、分类算法相关问题解析

gitlab7runner

于 2025-10-16 13:25:02 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：解码数据科学文章标签： SVM 二分类极端随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitlab7runner/article/details/154112466

解码数据科学专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

分类算法相关问题解析

一、SVM 作为二分类器时数据点标签的选择

在使用 SVM 作为二分类器时，有用户询问数据点的标签是否通过共识来选择。实际上，SVM 算法基于二次优化，通过超平面将不同类别的数据分开，最大化两类中最接近文档之间的距离。这里的“共识”可以理解为从各类最接近的文档计算得出的超平面。具体来说，通过计算数据点到该超平面的距离来为每个点分配类别，若距离为正，则属于某一类，否则属于另一类。

二、二分类算法的选择

对于一个包含约 1000 个训练样本、10 个属性（包括二进制、数值和分类属性）的二分类问题，不同人给出了不同的算法建议：
- 极端随机森林 ：因样本集相对较小，极端随机森林比标准随机森林更合适。它与标准随机森林类似，但随机进行树的分割，通常具有更好的泛化能力和速度，不过训练集的 AUC 可能稍差。
- 逻辑回归 ：对于低参数、样本量有限的二分类问题，逻辑回归通常足够强大，但因维度较低和样本量小，可能存在过拟合问题。
- K - 最近邻（K - Nearest Neighbors） ：在低维度数据中表现良好，但通常不太适合处理分类变量。
- 随机决策森林 ：当数据包含分类变量时，随机决策森林可以直接处理，无需进行 1 - of - n 编码转换，能减少信息损失。

三、大规模个性化的模型选择

在一个需要个性化预测的项目中，用户考虑是为每个用户训练模型，还是使用一个全局模型结合用户历史行为的汇总统计信息。答案因数据的规模和性质而异

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。