快速支持向量机(SVM)实现及应用
一、核心算法与学习方式
在线学习方式,如随机梯度下降(SGD),在处理大规模数据时展现出了简单、有效和可扩展的特点。尽管每次仅处理一个示例,但只要数据流是随机的,并且学习器针对问题进行了良好的调整(通常学习率是关键参数),SGD 就能近似达到将所有数据存储在内存中并使用批量算法的效果。不过,其结果目前仅能与批量线性模型相媲美,对于更复杂、方差大于偏差的学习器,如支持向量机(SVM)、神经网络或决策树的集成方法,还存在提升空间。
对于某些问题,如高而宽但稀疏的数据,简单的线性组合可能就足够了。但通过将现有特征映射到更高维度(使用不同阶的交互、多项式展开和核近似),可以加速和改进对响应与特征之间复杂非线性关系的学习。
二、本章涵盖内容
- 引入 SVM :介绍 SVM 的基本概念和数学公式,帮助理解其工作原理。
- SGD 与铰链损失 :提出使用带铰链损失的 SGD 作为大规模任务的可行解决方案,它采用与批量 SVM 相同的优化方法。
- 非线性近似 :为 SGD 提供非线性近似方法。
- 其他解决方案 :概述除 Scikit - learn 中的 SGD 算法外的其他大规模在线解决方案。
三、实验数据集
我们将使用 UCI 机器学习库中的两个数据集进行实验:
1. 自行车共享数据集 :该数据集包含 2
超级会员免费看
订阅专栏 解锁全文
747

被折叠的 条评论
为什么被折叠?



