机器学习在药物安全评估中的应用与挑战
1. 机器学习算法在毒性预测中的应用
- 决策树(DTs) :在某些情况下,决策树容易出现过拟合和因类别不平衡导致的有偏预测。该模型严重依赖输入数据,训练数据集的微小变化可能导致预测结果的显著改变。目前,由于存在其他预测能力更好的模型,其应用受到限制。不过,决策树是机器学习的基础算法,常作为投票代理嵌入到更复杂的方法中,如随机森林(RF)或梯度提升分类器。
- 随机森林和其他集成方法
- 集成策略 :为创建强大且具有高预测性的模型,可将同一机器学习决策模型的多个分类器组合成一个分类器集合。例如,随机森林算法是将单个决策树组合起来的集成算法,它随机选择决策树并对其预测结果进行平均或选择决策树投票指向的类别。
- 优势 :组合多个分类器和决策模型可以减少方差,降低过拟合和类别不平衡的风险。集成方法的核心假设是,多种单一方法的多样化和独立预测结果相结合,能因减少泛化误差而带来更好的性能。常见的集成技术包括最大投票、平均和加权平均等,用于计算分类问题中的概率。
- 高级集成方法 :在定量构效关系(QSAR)建模中应用的更高级集成方法包括堆叠、混合、装袋(自助聚合)和提升。具体操作步骤如下:
- 首先将数据集划分为训练集、测试集和验证集。
- 堆叠方法将一个模型的输出预测作为另一个模型的输入特征,然后在测试集上进行预测。
超级会员免费看
订阅专栏 解锁全文
1173

被折叠的 条评论
为什么被折叠?



