自然语言处理:第四十一章解读大模型的参数

最新推荐文章于 2025-09-23 20:08:39 发布

原创

最新推荐文章于 2025-09-23 20:08:39 发布 · 1.4k 阅读

·

12

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #人工智能 #深度学习 #神经网络 #chatgpt #gpt-3

文章链接:7B？13B？175B？解读大模型的参数 (qq.com)

写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!

写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!

写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!

大模型也是有大有小的，它们的大小靠参数数量来度量。GPT-3就有1750亿个参数，而Grok-1更是不得了，有3140亿个参数。当然，也有像Llama这样身材苗条一点的，参数数量在70亿到700亿之间。

这里说的70B可不是指训练数据的数量，而是指模型中那些密密麻麻的参数。这些参数就像是一个个小小的“脑细胞”，越多就能让模型更聪明，更能理解数据中那些错综复杂的关系。有了这些“脑细胞”，模型在处理任务时可能就会表现得更好。

大模型的这些参数就像是模型内部的“建筑师”，通过复杂的算法和训练过程，一点一滴地搭建起这个庞大的语言世界。每个参数都有它的作用，它们共同协作，让模型能够更准确地理解我们的语言，并给出更合适的回答。

那么，大模型中的参数是怎样构成的呢？、

1. 大模型中的参数

大模型参数是其“内部零件”，这些零件各有各的用途，通常包括但不限于以下几类：

权重（Weights）：权重就像神经网络里的“电线”，连接着各个神经元。它们负责调整信号传递时的“音量”，让重要的信息传得更远，不那么重要的信息就小声点。比如在全连接层里，权重矩阵W就是一张“地图”，告诉我们哪些输入特征和输出特征关系最密切。
偏置（Biases）：偏置就像是神经元的“小助手”，负责给神经元的响应定个基准。有了它，神经元就知道自己该在什么水平上活跃了。
注意力机制的参数（Attention Parameters）：在基于Transformer的模型中，这些参数就像是“指南针”，告诉模型哪些信息最值得关注。它们包括查询矩阵、键矩阵和值矩阵等，就像是在一大堆信息中找出最关键的“线索”。
嵌入矩阵（Embedding Matrices）：在处理文本数据时，嵌入矩阵就是模型的“字典”。每一列都代表一个词汇，用一个数来表示这个词。这样，模型就能理解文本的意思了。
隐藏状态初始化参数（Initial Hidden State Parameters）：这些参数就是用来设置模型最初的隐藏状态的，就像是给模型定个基调，让它知道从哪里开始“思考”。
…

这些参数一般会使用4种表达和存储的格式:

Float:

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

曼城周杰伦 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。