ZHUY-JUN-优快云博客

原创【大模型(LLMs)基础】

大模型:一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型(LargeLanguageModel，LLM)是针对语言的大模型。

2024-06-24 12:09:49 917

原创【Attention讲解】

Multi-Query Attention在所有注意力头上共享key和 value.Grouped query attention:介于multi head和multi query之间，多个key和value。

2024-06-24 12:08:39 923

原创 Transformer的位置编码和Attention 介绍

Transformer的位置编码和Attention 介绍Transformer模型的优点transformer 的简单介绍功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Transformer模型的优点传统缺点:seq2se

2023-03-06 10:50:30 1178

原创 UniLM详解

UniLM介绍

2023-02-08 11:35:29 1281

原创 NLP中知识蒸馏

nlp中知识蒸馏

2023-02-01 17:02:15 2805 4

原创 Multi-Head Attention的讲解

Multi-Head Attention的讲解一、什么是 AttentionAttention机制最早是在视觉图像领域提出来的，应该是在九几年思想就提出来了，但是真正火起来应该算是2014年google mind团队的这篇论文《Recurrent Models of Visual Attention》，他们在RNN模型上使用了attention机制来进行图像分类。2017年，google机器翻译团队发表的《Attention is all you need》中大量使用了自注意力（self-attenti

2021-10-19 15:55:38 11577

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_41980734的博客

原创【大模型(LLMs)基础】

原创【Attention讲解】

原创 SimBERT详解

原创 XLNet详解

原创 Transformer的位置编码和Attention 介绍

原创 UniLM详解

原创 NLP中知识蒸馏

原创 Multi-Head Attention的讲解

空空如也

空空如也