当我们谈论LLM的时候在谈论什么

最新推荐文章于 2025-11-24 18:29:32 发布

原创最新推荐文章于 2025-11-24 18:29:32 发布 · 664 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

在讨论人工智能,AI,LLM等问题的时候我们经常会听说很多概念,比如Transformer,注意力机制,词嵌入,llama等等.这些内容代表着什么,下面我们会对他进行讲解.

1什么是Transformer

Transformer是一种神经网络的架构,在Transformer出现之前也出现过其他网络架构.比如最简的前馈神经网络,他的形状是下面的样子,
前馈神经网络的样子
看上去很简单,数据从上面流入,经过3层神经元,最后得到输出.那么Transformer只是非常复杂的一种神经网络架构,他的样子是下面的这样.

在这里插入图片描述
嗯,看上去复杂了很多,里面的连线乱七八糟,而且也看不到用圆形表示的神经元了.但是不要害怕,作为一个评论家,我们在和别人谈笑风生的时候并不需要知道里面每一个步骤具体的实现,并且现在比较火热的大语言模型(llama,Qwen,deepseek.等)他们都会对Transformer架构进行改动,并且有些只用了一半的Transformer架构.

问:什么?只用了一半的Transformer架构?那功能还能保持完整吗?
答:可以的,听说过半部论语治天下吗?

到此我们只要知道Transformer是一种类型的神经网络结构,他可以对一串数据进行处理,然后再产生一串数据.

2分词器和词嵌入和Token

我们知道我们输入一段文字给llm,比如"你的名字是什么".他会跟我们进行对话返回"我叫韩梅梅".

现在假设我们是大语言模型,我们接收到一个问句"你叫什么",我们怎么样才能这句话是在问我们的名字呢?

分词

首先我们要对句子分析主谓宾对吧?把一句话分成不同的部分,在这里我们可以分成 “你”“的”“名字”“是”“什么”,那这个工作就叫做分词
听上去很简单对吗?但是在计算机中对语言进行分词是很困难的,因为自然语言并不是表达非常准确的语言,比如下面这段话我们要怎么分词?“老四老三老大老二老大了”
在程序的世界里,一般使用分词器进行分词,分词器有很多种,每种都有不同的使用范围,比如一个英文的分词器就不能很好的对汉语进行分词,那么这个分词器是怎么实现的呢?嗯,他也可以是神经网络,套娃了属于.

词嵌入

好,在把句子分词之后,我们得到了词 “你”“的”“名字”“是”“什么”,那么我们要对词进行理解,比如"名字"表示的是每个人的名称,而不是身高体重,更不是收入.那么如何在计算机中表示名字代表的是一个人的名称呢?这个就是词嵌入干的活.

计算机会维护一个向量空间,可以理解成计算机内部维护了一套知识图谱,里面有各种的概念,其中有一个点A代表着一个人的名字这种概念,那么词嵌入就是把"名字"这个词用A来表示,那么这个A具体张什么样呢?他是一个很长的向量.大概有几千个维度那么长.
如果一个嵌入模型比较好,他不光可以把"名字"映射成A,还可以把英文的"name"映射成A,日语"名前" 映射成A…因为这样才能实现多语言交流

Token

Token就是我们在词嵌入得到的结果A…所以一个汉字就是一个token吗?概念上可以这么理解,但是一个汉字不是一个token

3多注意力机制是什么?

注意力机制是神经网络发展的一个伟大的概念.他的核心说法就是在处理句子时,我们要关注什么…很抽象是不是.我们可以举例理解
当面前一个人对我们说话的时候"你的名字是什么",我们会怎么理解这句话?
首先,接收到文本信息,其次还接收到了语气,还接收到了音色,并且更重要的是我们还接收到了说话人的面孔,大脑在处理问题的时候会从不同的角度理解这句话,比如他是询问的语气,还是命令的语气,对方是男的还是女的,这些都会影响到我们对句子的回答,如果是一个陌生面孔,我们会拒绝回答,如果是一个警察,我们会很紧张,然后很模糊的回答…在例子中,我们考虑的文本,语气,音色,面孔这些每一个都是一个注意力,合在一起就是一个多注意力机制.这些注意力共同决定我们要做出什么样的回答.

在大语言模型中,由于没有语气,音色这些输入,那么他的注意力表现在分析句子前后词的相互影响,并且每个注意力头会分析句子不同的方向比如时态,语法顺序,等…

4Qwen,GTP,Deepseek这些是什么

这些是不同公司开发的产品.可以理解成Transformer是一个菜谱,给出了做菜的指导思想,不同公司相当于不同的厨师,使用不同的食材,根据菜谱,然后再加上厨师本身对火候的把握,还有厨师的祖传配料最终会做出来一道菜,这个菜就是Qwen,GTP…所以现在网络中有各种互相比较的视频,分析哪家的模型厉害.这种就像达人探店一样,即考验厨师本人做菜的真水平,也考研达人的欣赏水平.

5开源模型,闭源模型

开源模型:是那些把产品整个神经网络的结构都在互联网公开的产品,比如Qwen,还是拿做菜举例,Qwen的公司把他们的秘制配方都放到了互联网上,如果一个人有相当高的厨艺,就一个自己从头再做一道菜,达到和Qwen相同的效果,如果厨师水平再高一点,他可以站在巨人的肩膀上,自己再加入一些秘制配方,形成自己的产品.所以开源模型让每个人(需要有相当高的计算机技术)都能对模型进行深度定制,
闭源模型:相对于开源模型,闭源模型并没有公开自己的模型参数,相当于他的祖传秘方没有公开到网络上,别人没有办法抄袭他的做菜方式.GTP就是典型的闭源模型

6微调

什么叫微调.是对大语言模型进行修改, 让一个模型在某些任务重能力更加突出…比如我们拿一个公开的模型Qwen应用到自己公司的业务中去,对于自己公司的业务Qwen肯定是不懂的,这个时候我们可以对Qwen重新进行教育,让Qwen指导在公司的环境中应该做什么,不应该做什么,这个过程就叫微调,
,微 形容了修改幅度是很小的修改,只能修改语言模型的权重参数,并不能对模型进行翻天覆地的修改,不然就会叫巨调了.但是即使是微调,对计算资源的消耗,操作人的技术水平要求够狠高,实现起来很难,并且还有其他的技术可以让语言模型比如lora,rag,提示词工程等