记录下主流大模型的一些核心知识点,包括:
- 架构
- 注意力机制
- 位置编码
- 归一化
- 激活函数
- 模型参数
表中的一些模型已经是很久之前的了,比如表中并未收入 DeepSeek V3 中使用的MLA的注意力机制。先占个位,后续如果有更新的汇总表再来更新吧。
参考资料
https://blog.youkuaiyun.com/m0_53162279/article/details/142830585
记录下主流大模型的一些核心知识点,包括:
表中的一些模型已经是很久之前的了,比如表中并未收入 DeepSeek V3 中使用的MLA的注意力机制。先占个位,后续如果有更新的汇总表再来更新吧。
https://blog.youkuaiyun.com/m0_53162279/article/details/142830585