- 博客(8)
- 收藏
- 关注
原创 【大模型(LLMs)基础】
大模型:一般指1亿以上参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型也有了。大语言模型(LargeLanguageModel,LLM)是针对语言的大模型。
2024-06-24 12:09:49
917
原创 【Attention讲解】
Multi-Query Attention在所有注意力头上共享key和 value.Grouped query attention:介于multi head和multi query之间,多个key和value。
2024-06-24 12:08:39
923
原创 Transformer的位置编码和Attention 介绍
Transformer的位置编码和Attention 介绍Transformer模型的优点transformer 的简单介绍功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Transformer模型的优点传统缺点:seq2se
2023-03-06 10:50:30
1178
原创 Multi-Head Attention的讲解
Multi-Head Attention的讲解一、什么是 AttentionAttention机制最早是在视觉图像领域提出来的,应该是在九几年思想就提出来了,但是真正火起来应该算是2014年google mind团队的这篇论文《Recurrent Models of Visual Attention》,他们在RNN模型上使用了attention机制来进行图像分类。2017年,google机器翻译团队发表的《Attention is all you need》中大量使用了自注意力(self-attenti
2021-10-19 15:55:38
11577
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人