2024_ICLR-PROTEIN DISCOVERY WITH DISCRETE WALK-JUMP SAMPLING

文章主要内容和创新点总结

主要内容

本文针对离散序列生成(尤其是抗体蛋白质生成)的训练与采样难题,提出了一种新的生成建模范式——平滑离散采样(SDS),并设计了离散步跳采样(dWJS)算法。该方法通过学习平滑能量函数,利用朗之万马尔可夫链蒙特卡洛(MCMC)从平滑数据流形采样,再通过单步去噪投影回真实数据流形,融合了基于能量模型(EBM)的对比散度训练优势和基于分数模型的样本质量优势。

在抗体生成任务中,该方法通过优化分布一致性分数(DCS),实现了优异的性能:97%-100%的生成样本成功表达和纯化,70%的功能设计在首次实验室实验中展现出与已知功能抗体相当或更优的结合亲和力;同时首次实现了长时快速混合MCMC链,可在单条链中覆盖多种抗体蛋白质类别。文章还通过体外实验验证了方法的有效性,在分布学习、抗体表达纯化及功能治疗性抗体设计三大任务中,均优于自回归模型、扩散模型、大型语言模型等基线方法。

创新点

  1. 提出平滑离散采样(SDS)范式:基于神经经验贝叶斯(NEB)框架,通过解耦的基于能量和分数的模型学习带噪数据分布,支持变长离散输出的快速非自回归采样,并设计了离散EBM的新型架构。
  2. 简化训练流程:仅需单一噪声水平,无需噪声调度,解决了扩散模型的脆弱性、训练不稳定性和采样缓慢问题,同时摒弃了EBM训练中常见的重放缓冲区、L2范数惩罚、拒绝采样等复杂技巧。
  3. 引入分布一致性分数(DCS):作为蛋白质生成模型的基准指标,能简洁描述生成样本相对于参考分布的可信度,同时兼顾新颖性和多样性,有效指导模型优化。
  4. 实现高效抗体生成:在
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值