文章主要内容和创新点总结
主要内容
本文针对离散序列生成(尤其是抗体蛋白质生成)的训练与采样难题,提出了一种新的生成建模范式——平滑离散采样(SDS),并设计了离散步跳采样(dWJS)算法。该方法通过学习平滑能量函数,利用朗之万马尔可夫链蒙特卡洛(MCMC)从平滑数据流形采样,再通过单步去噪投影回真实数据流形,融合了基于能量模型(EBM)的对比散度训练优势和基于分数模型的样本质量优势。
在抗体生成任务中,该方法通过优化分布一致性分数(DCS),实现了优异的性能:97%-100%的生成样本成功表达和纯化,70%的功能设计在首次实验室实验中展现出与已知功能抗体相当或更优的结合亲和力;同时首次实现了长时快速混合MCMC链,可在单条链中覆盖多种抗体蛋白质类别。文章还通过体外实验验证了方法的有效性,在分布学习、抗体表达纯化及功能治疗性抗体设计三大任务中,均优于自回归模型、扩散模型、大型语言模型等基线方法。
创新点
- 提出平滑离散采样(SDS)范式:基于神经经验贝叶斯(NEB)框架,通过解耦的基于能量和分数的模型学习带噪数据分布,支持变长离散输出的快速非自回归采样,并设计了离散EBM的新型架构。
- 简化训练流程:仅需单一噪声水平,无需噪声调度,解决了扩散模型的脆弱性、训练不稳定性和采样缓慢问题,同时摒弃了EBM训练中常见的重放缓冲区、L2范数惩罚、拒绝采样等复杂技巧。
- 引入分布一致性分数(DCS):作为蛋白质生成模型的基准指标,能简洁描述生成样本相对于参考分布的可信度,同时兼顾新颖性和多样性,有效指导模型优化。
- 实现高效抗体生成:在

订阅专栏 解锁全文
2095

被折叠的 条评论
为什么被折叠?



