4、分类算法相关问题解析

分类算法相关问题解析

一、SVM 作为二分类器时数据点标签的选择

在使用 SVM 作为二分类器时,有用户询问数据点的标签是否通过共识来选择。实际上,SVM 算法基于二次优化,通过超平面将不同类别的数据分开,最大化两类中最接近文档之间的距离。这里的“共识”可以理解为从各类最接近的文档计算得出的超平面。具体来说,通过计算数据点到该超平面的距离来为每个点分配类别,若距离为正,则属于某一类,否则属于另一类。

二、二分类算法的选择

对于一个包含约 1000 个训练样本、10 个属性(包括二进制、数值和分类属性)的二分类问题,不同人给出了不同的算法建议:
- 极端随机森林 :因样本集相对较小,极端随机森林比标准随机森林更合适。它与标准随机森林类似,但随机进行树的分割,通常具有更好的泛化能力和速度,不过训练集的 AUC 可能稍差。
- 逻辑回归 :对于低参数、样本量有限的二分类问题,逻辑回归通常足够强大,但因维度较低和样本量小,可能存在过拟合问题。
- K - 最近邻(K - Nearest Neighbors) :在低维度数据中表现良好,但通常不太适合处理分类变量。
- 随机决策森林 :当数据包含分类变量时,随机决策森林可以直接处理,无需进行 1 - of - n 编码转换,能减少信息损失。

三、大规模个性化的模型选择

在一个需要个性化预测的项目中,用户考虑是为每个用户训练模型,还是使用一个全局模型结合用户历史行为的汇总统计信息。答案因数据的规模和性质而异

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值