文本稀疏迁移分类:创新方法与实验验证
1. 引言
监督分类在机器学习中应用广泛,是一项重要任务。通过学习模型,我们能够对未知样本的目标标签进行预测。不过,要获得准确的预测结果,训练样本和测试样本的感兴趣领域以及潜在分布必须保持一致。当领域发生变化,但任务仍相关时,我们就希望能够重用已标记的数据或现有的学习模型。
以文本情感分类为例,我们先在特定主题的文本集合上训练分类器,这些文本自然具有与该主题相应的单词分布。而在测试场景中,选择另一个主题会导致单词分布与训练时产生差异。迁移学习的目标之一就是解决这类差异问题。
再如Wi-Fi定位,其目的是根据最新的Wi-Fi配置文件来检测用户位置。但收集Wi-Fi定位配置文件成本高昂,需要考虑时间和设备等因素。为减少重新校准的工作量,我们希望将先前创建的配置文件(源领域)应用于新的时间段(目标领域),或者将定位模型适配到其他设备上,这就产生了知识迁移问题。
目前已经提出了多种迁移学习方法,这些方法遵循不同的策略,旨在解决各种问题。然而,本文的重点是稀疏迁移模型,这是当前方法尚未充分涉及的领域。
概率分类向量机(PCVM)是一种稀疏概率核分类器,在训练过程中会修剪未使用的基函数。它是一种非常成功的分类算法,性能可与支持向量机(SVM)相媲美,并且具有自然稀疏性,能够创建可解释的模型,这在许多迁移学习应用领域中是非常必要的。不过,原始的PCVM并不适合迁移学习,因为当测试领域的分布与训练领域不同时,它缺乏相应的自适应过程。
为了解决这个问题,我们提出了一种名为“基迁移(BT)”的新迁移学习方法,并将其与PCVM相结合。我们将通过实验,把提出的解决方案与该领域的标准基准进行比较。