应用迁移学习构建QSAR回归模型
1. 引言
在化学领域,尤其是定量构效关系(QSAR)研究中,化学数据常常存在生物活性值缺失的问题,而且即使有这些值,数据集的实例数量也较少。这使得构建用于预测化学过程中分子现象的模型成为一项极具挑战性的任务。传统的数据挖掘和机器学习方法在训练和测试数据来自相同特征空间和概率分布时能取得较好效果,但在实际应用中,数据分布往往会发生变化,这就需要重新收集训练数据来重建模型,成本高昂甚至不可行。而迁移学习技术的出现,为解决这类问题提供了新的思路。
2. 迁移学习基础
- 传统方法的局限性 :许多数据挖掘和机器学习方法,包括分类、回归和聚类方法,通常假设训练数据和测试数据来自相同的特征空间,遵循相同的概率分布。然而,在实际应用中,数据分布可能会发生变化,这就导致大多数预测模型需要使用新收集的训练数据重新构建,这在很多现实应用中既昂贵又不可行。
- 迁移学习的优势 :迁移学习允许在训练和测试阶段考虑不同的领域、任务和概率分布。它的发展基于这样一个假设,即可以将在某个任务中获得的先前知识应用于解决新的相关问题,从而更快速地找到更好的解决方案。特别是,迁移学习方法可以节省大量的数据收集和标记工作。在知识工程领域,迁移学习有很多实际应用的例子,在药物化学领域的新药发现研究中,迁移学习技术也得到了广泛应用。
3. 方法
3.1 支持向量回归(SVR)
对于单目标QSAR问题,数据集 $X = {(x_i, y_i), i = 1, \cdots, l}$,其中 $x_i \
超级会员免费看
订阅专栏 解锁全文
1066

被折叠的 条评论
为什么被折叠?



