文本分类中的线性模型与特征工程
1. 感知机与支持向量机的学习方式
在文本分类领域,感知机和支持向量机(SVM)是两种常用的算法,它们在学习方式上有所不同。感知机采用在线学习的方式,它会针对每个训练示例逐步更新其参数。而SVM则属于批量学习,它会在整个训练数据集D上对训练目标进行优化。
如果训练数据是线性可分的,感知机算法能够找到一个分离超平面,以100%的准确率区分不同的类别。这意味着感知机可以有效地处理线性可分的数据,为分类任务提供可靠的解决方案。
2. 多类分类问题
2.1 多类分类的挑战与解决方案
之前的章节主要关注二元分类任务,在这种情况下,一个单一的超平面就足以在向量空间中分离不同的文档。然而,对于具有两个以上输出类别的多类分类问题,就需要多个超平面来划分向量空间。
一种简单的解决方案是“一对其余”(one-vs-rest)方法,即针对n类分类问题训练n个二元分类器,每个分类器作为一个超平面,将特定类别的文档与其余文档分开。但这种方法包含多个子模型,理论上不够优雅,因为在给定测试输入时,很难保证不同子模型之间的一致性。
更具原则性的解决方案是找到一种合适的方式来定义向量空间,使得单个超平面能够进行多类分类。这可以通过处理输出表示的向量空间,而不是输入表示的向量空间来实现。具体来说,如果向量空间中的每个点代表一个输入 - 输出对,而不是一个输入,那么多类分类可以建模为从一组训练示例中分离正确输出和错误输出的任务。此时,一个超平面就足以完成这个任务,因为现在又有了两种主要类型的点。
2.2 基于输出的特征定义
将基于输入的特征向量扩展为基于输
超级会员免费看
订阅专栏 解锁全文
2285

被折叠的 条评论
为什么被折叠?



