
LLM
文章平均质量分 80
吕秀才
静下心来,每一步都踏踏实实。
展开
-
Transformer(一)--论文翻译:Attention Is All You Need 中文版
Attention Is All Your Need 摘要 主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络,且都包含一个encoder和一个decoder。表现最好的模型还通过attention机制把encoder和decoder联接起来。我们提出了一个新的、简单的网络架构,Transformer. 它只基于单独的attention机制,完全避免使用循环和卷积。在两个翻译任务上表...翻译 2019-11-15 11:46:37 · 80742 阅读 · 281 评论 -
Transformer(三)--论文实现:transformer pytorch 代码实现
文章目录1. transformer的基本结构2. 模块详解2.1 模块1:Positional Embedding2.2 模块2:Multi-Head Attention2.2.1 Scaled Dot-Product Attention2.2.2 Multi-Head2.3 模块3:ADD2.4 模块4:Layer Normalization2.5 模块5:Feed Forward NetWork2.6 模块6:Masked Multi-Head Attention2.7 模块7: Multi-Head原创 2022-05-18 15:41:39 · 6583 阅读 · 76 评论 -
Transformer(二)--论文理解:transformer 结构详解
文章目录1. transformer的基本结构2. 模块详解2.1 模块1:Positional Embedding(以下简称PE模块):2.2 模块2:Multi-Head Attention(多头注意力机制)2.2.1 Scaled Dot-Product Attention(缩放的点积注意力机制)2.2.2 Multi_Head(多头机制)2.3 模块3:ADD2.4 模块4:Layer Normalization2.5 模块5:Feed Forward NetWork2.6 模块6:Masked M原创 2020-12-10 12:26:23 · 17174 阅读 · 0 评论 -
Google Gemini Pro 测试
谷歌新发布了Gemini模型,说是吊打GPT4,上手使用了下,感觉一般,没有感觉到预期的吊打。下面是与Bard的对话。原创 2023-12-08 11:53:21 · 218 阅读 · 0 评论