多模态分布外不确定性量化提升多靶点药物亲和力预测

最新推荐文章于 2026-01-09 11:22:02 发布

原创最新推荐文章于 2026-01-09 11:22:02 发布 · 366 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #药物发现 #不确定性量化 #程序那些事 #AIGC #统计估计 #低秩模型

摘要

多靶点药理学（一种药物靶向多个蛋白质）有望解决未满足的医疗需求。实现跨多个蛋白质的准确、可靠且可扩展的蛋白质-配体结合亲和力预测，对于发挥多靶点药理学的潜力至关重要。机器学习为多靶点结合亲和力预测提供了强大的工具。然而，三大挑战仍然存在：将预测推广到与训练数据在结构上不同的分布外化合物；量化现有方法假设不成立的分布外场景下的预测不确定性；扩展到数十亿化合物，这对于当前基于结构的方法仍无法实现。为了克服这些挑战，本文提出了一种基于模型无关异常检测的个体不确定性量化方法：基于嵌入的马哈拉诺比斯异常评分和聚类异常识别。该方法以已知案例与未见实例的多模态表示之间的差异为特征，逐个化合物地量化个体预测不确定性。将该方法与用于多靶点配体结合亲和力预测的多模态深度神经网络集成，利用结构信息大型蛋白质语言模型。在分布外设置中的全面验证表明，该方法显著优于最先进的基于序列和基于结构的方法以及现有不确定性量化方法。这些发现突显了该方法在推进真实世界多靶点药理学及其他需要鲁棒预测和可扩展解决方案的应用方面的潜力。

数据可用性

原始结合亲和力数据从公共可用的ChEMBL数据库获取。LIT-PCBA数据集从官方LIT-PCBA项目网站下载，相关蛋白质复合物通过Zenodo获取。实验中使用的基于支架分割的数据以及补充信息中引用的基于UMAP分割的数据均通过Zenodo提供。源数据随文提供。

代码可用性

本工作的代码通过GitHub和Zenodo提供。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）