2024_ICLR-PROTEIN DISCOVERY WITH DISCRETE WALK-JUMP SAMPLING

最新推荐文章于 2026-01-08 23:29:03 发布

原创最新推荐文章于 2026-01-08 23:29:03 发布 · 8 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能

LLM Daily 同时被 2 个专栏收录

1833 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

35 篇文章

订阅专栏

文章主要内容和创新点总结

主要内容

本文针对离散序列生成（尤其是抗体蛋白质生成）的训练与采样难题，提出了一种新的生成建模范式——平滑离散采样（SDS），并设计了离散步跳采样（dWJS）算法。该方法通过学习平滑能量函数，利用朗之万马尔可夫链蒙特卡洛（MCMC）从平滑数据流形采样，再通过单步去噪投影回真实数据流形，融合了基于能量模型（EBM）的对比散度训练优势和基于分数模型的样本质量优势。

在抗体生成任务中，该方法通过优化分布一致性分数（DCS），实现了优异的性能：97%-100%的生成样本成功表达和纯化，70%的功能设计在首次实验室实验中展现出与已知功能抗体相当或更优的结合亲和力；同时首次实现了长时快速混合MCMC链，可在单条链中覆盖多种抗体蛋白质类别。文章还通过体外实验验证了方法的有效性，在分布学习、抗体表达纯化及功能治疗性抗体设计三大任务中，均优于自回归模型、扩散模型、大型语言模型等基线方法。

创新点

提出平滑离散采样（SDS）范式：基于神经经验贝叶斯（NEB）框架，通过解耦的基于能量和分数的模型学习带噪数据分布，支持变长离散输出的快速非自回归采样，并设计了离散EBM的新型架构。
简化训练流程：仅需单一噪声水平，无需噪声调度，解决了扩散模型的脆弱性、训练不稳定性和采样缓慢问题，同时摒弃了EBM训练中常见的重放缓冲区、L2范数惩罚、拒绝采样等复杂技巧。
引入分布一致性分数（DCS）：作为蛋白质生成模型的基准指标，能简洁描述生成样本相对于参考分布的可信度，同时兼顾新颖性和多样性，有效指导模型优化。
实现高效抗体生成：在

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。