AI 观察:通过扩散(Diffusion)生成文本

典型的大型语言模型是自回归模型,它们从左到右依次预测下一个标记。一种新模型则一次性优化所有文本标记。

最新进展:硅谷初创公司Inception Labs发布了Mercury Coder,这是一种能够生成代码的扩散模型,有小型和迷你版本。注册用户可以在这里试用,API(申请早期访问请在此处注册)和本地部署正在开发中。该公司尚未宣布可用性和定价。

工作原理:类似于图像扩散模型,Mercury Coder通过逐步去除噪声来改进其输出。

·Inception Labs几乎没有透露有关该模型的详细信息,包括参数数量、输入大小和输出大小、训练数据和训练方法等细节。

·2023年10月,Inception Labs联合创始人合著的一篇论文描述了使用得分熵训练文本扩散模型。该模型学会了估计两个标记之间的转换比率,即标记y正确的概率除以当前标记x正确的概率。

·在最成功的实验中,作者通过逐步随机掩蔽越来越多的标记来向标记添加噪声。

·在推理过程中,模型从掩蔽的标记开始,并在多个步骤中逐步取消掩蔽。估计的转换比率决定了每一步中如何改变每个标记。

结果:Mercury Coder的主要优势在于速度,同时在与几个竞争对手的比较中也表现出色。

·小型和迷你版本分别比同类的小型编码模型快3.5到18倍。在Nvidia H100图形处理单元上运行时,Mercury Coder小型版本每秒生成737个标记,迷你版本每秒生成1,109个标记。相比之下,Qwen 2.5 Coder 7B每秒生成207个标记,GPT 4o-Mini每秒生成59个标记。    

·在六个基准测试中的编码任务上,Mercury Coder小型版本在至少四个基准上优于Gemini 2.0 Flash-Lite、Claude 3.5 Haiku、GPT-4o Mini和Qwen 2.5 Coder 7B。Mercury Coder迷你版本在至少两个基准上优于这些模型。Mercury Coder的两个版本在所有六个基准上都输给了DeepSeek Coder V2 Lite。

新闻背景:多个团队已经构建了生成文本的扩散模型,但之前的尝试未能与自回归大型语言模型(LLMs)竞争。最近,LLaDA在性能上与Meta的Llama 2 7B相当,但未能达到Llama 3 8B和其他类似规模的现代LLMs的水平。

为什么重要:文本扩散模型已经比自回归模型更快。它们具有显著的加速文本生成的潜力。 我们的看法:扩散图像生成器在最少四步甚至一步的情况下就能生成高质量的输出,生成输出标记的速度明显快于自回归模型。如果文本扩散模型能够从图像生成的改进中受益,它们可能会导致大量文本的快速生成,进而带来更快的代理和推理过程。

(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)

觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

图片

相关阅读:

为什么说DeepSeek在物理世界最大的应用可能是智能电动车?

重磅体验:AI编程不能取代程序员,但程序员会用的话确实很爽

最新洞见:GenAI在企业应用中的既要又要

关于译者


图片

关注公众号看其它原创作品

坚持提供对你有用的信息

觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值