分类算法相关问题解析
一、SVM 作为二分类器时数据点标签的选择
在使用 SVM 作为二分类器时,有用户询问数据点的标签是否通过共识来选择。实际上,SVM 算法基于二次优化,通过超平面将不同类别的数据分开,最大化两类中最接近文档之间的距离。这里的“共识”可以理解为从各类最接近的文档计算得出的超平面。具体来说,通过计算数据点到该超平面的距离来为每个点分配类别,若距离为正,则属于某一类,否则属于另一类。
二、二分类算法的选择
对于一个包含约 1000 个训练样本、10 个属性(包括二进制、数值和分类属性)的二分类问题,不同人给出了不同的算法建议:
- 极端随机森林 :因样本集相对较小,极端随机森林比标准随机森林更合适。它与标准随机森林类似,但随机进行树的分割,通常具有更好的泛化能力和速度,不过训练集的 AUC 可能稍差。
- 逻辑回归 :对于低参数、样本量有限的二分类问题,逻辑回归通常足够强大,但因维度较低和样本量小,可能存在过拟合问题。
- K - 最近邻(K - Nearest Neighbors) :在低维度数据中表现良好,但通常不太适合处理分类变量。
- 随机决策森林 :当数据包含分类变量时,随机决策森林可以直接处理,无需进行 1 - of - n 编码转换,能减少信息损失。
三、大规模个性化的模型选择
在一个需要个性化预测的项目中,用户考虑是为每个用户训练模型,还是使用一个全局模型结合用户历史行为的汇总统计信息。答案因数据的规模和性质而异
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



