前言
这个图可以很轻松的让没有任何基础的人看懂DLM的工作原理,它会根据问题直接生成一个回答草稿,然后一次次的修改和润色草稿,最终输出回答。
Prompt:Explain what artificial intelligence is.
来源:https://ml-gsai.github.io/LLaDA-demo/
而传统的大模型是一个字一个字的吐,比如我问DeepSeek,跟上面同样的问题,它的回答模式就是线性的,下一个字的输出取决于前面的内容,跟后面的内容没有关系。
这个就是现在最为主流的大模型生成原理,autoregressive modeling (ARM),它的核心公式就是下面,就是根据前面的所有内容预测下个字。
我在介绍ChatGPT原理的时候提到过(从deepseek书里面找)。
而DLM(Diffusion Large language model)走的是非常不一样,但是又比较符合人类直觉的路子。
就比如说高考作文题要求写一篇不少于800字的议论文,“AI的出现给人类带来了什么改变?”
传统的LLM会一个字一个字的往外蹦,也就是线性生成过程。
就比如这个生成了一句话。
下一时刻它生成的就只有一个字,不多不少,就只多一个字。
你可以观察任何一个传统的大模型,DeepSeek,ChatGPT,Qwen,Gemini等等,都是这样的,跳不出这个逻辑,因为它的底层设计就是一个字一个字的往外吐。
而DLM则是完全不同的逻辑,它是直接生成一篇800字的“文章”,为什么要加引号,是因为这个最初生成的“文章”很有可能狗屁不通,压根不能算做文章。
但是它快呀,你别管它能不能读,反正快是肯定的。
并且它有独特的更新机制,就像下面的这张图,它会一轮轮的迭代更新自己的内容,你看当前时刻可能只确定了一部分的词汇(红色),但是在下一时刻,可能就有更多的内容被确定了出来(绿色)。
多轮迭代之后,就可以实验整体性的优化,最后实现跟传统大模型类似的结果,你像这个领域的经典工作,LLaDA,在同等模型大小的前提下,在大多数的任务上表现并不比其他的模型差多少。
从结果为导向来看,这也是DLM为什么会吸引关注的主要原因,因为它真的快,传统大模型生成速度再快,也得一个字一个字来。
有些工作虽然在做next two tokens(预测下两个字符),甚至更多的字符,但是进展非常缓慢,并且从直觉来看,DLM明显要比传统大模型更具备可扩展性。
就跟我们写作文的时候,很少时候是一个字一个字的往出蹦想法,而是总体上有个考量,然后甚至会在几个部分想几个金句出来,只不过在最后执行的时候是一个字一个字的写。
油画的创作过程就比较类似,先来一个非常粗略的草稿,然后一层层的上颜色,一次次的涂个几层几十层都不是什么稀罕事。
其实这个正好暗合了DLM中D这个字母所代表的技术,也就是Diffusion,这个技术原本是应用在图像生成(Image generation)上面的,可以说现在绝大多数的图像以及视频生成都是基于这个技术,比如OpenAI的Sora,阿里的Wan通义万相等。
简单来说,就是生成一堆乱七八糟的噪音,然后让AI学习怎么从噪音转换到想要的图片或者视频。
DLM只不过是把脱胎于图像生成的技术应用到了文字生成,所以这也是很多技术到了最后都会兼容的主要原因,单一技术总会存在这样那样的限制,而取众家之长则是必然要走的路。
DLM的核心技术技术其实原理上很直观,不同于LLM的next token prediction,它做的是mask predictor。
Next token prediction我们之前讲过了,那就是根据现有的句子,预测下一个词,
Mask predictor类似,就是随机的把一段话的部分内容“掩盖”住,这就是Mask的来源,被盖住的内容就叫掩码(masked token)。
比如说在最开始训练的时候,我们提供了一个数据,下面这个基本上大家都知道。
如果是LLM学习的话,它在知道“世上无”这三个字之后,基本上可以稳定输出后面的所有内容,它是线性的。
而DLM不太一样,它会随机“掩盖”几个字,就比如说这样的,然后让大模型去学习怎么去填空。
它可能会这么填,也可能有其他的填法。
但是在一轮轮的训练,迭代,它也能学会这种填空的方法。
正好契合了LLaDA的流程,总体上就是随机掩盖一部分字符,然后去预测这些内容。
最后达到极致,就是直接输出要求的所有内容,只不过是以随机的字符输出,然后在一轮轮的迭代下,生成最终需要的文章。
这篇文章的这个例子很直观,用户了提问了一个简单的数学题:
Lily can run 12 kilometers per hour for 4 hours. After that, she runs 6 kilometers per hour. How many kilometers can she run in 8 hours?
LLaDA在生成回答的时候,颜色深的部分是后面确定的,颜色浅的部分时早些时候确定的。
可以看到非关键信息比如人名Lily,量词hours,很早就确定了下来。而比较关键的数字,特别是4这个数字,以及涉及到运算和逻辑的部分,都是在后面确定的。
也可以从这个案例中看到,DLM在生成内容的时候,在遵循一定的主次关系。
还有更多的案例,可以在论文的附录appendix里找到。
总的来说,这是一项非常有前景的技术,只不过相比起只预测下一个字符来说,技术难度要更高一些;但从长远来说,潜力不小,特别是Google也在下场做这件事。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。
与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】

AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。
但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
