
深度学习
文章平均质量分 88
吕秀才
静下心来,每一步都踏踏实实。
展开
-
《ZeRO: Memory Optimizations Toward Training Trillion Parameter Models》--中文翻译
深度学习 (DL) 模型变得越来越大,模型大小的增加带来了显著的精度提升。在自然语言处理 (NLP) 领域,Transformers 为大型模型铺平了道路,例如 Bert-large (0.3B) 、GPT-2 (1.5B) 、Megatron-LM (8.3B) ,T5 (11B)。为了使模型大小能够从数十亿个参数持续增长到数万亿个参数,我们在训练它们时遇到了挑战 - 它们显然不适合单个设备(例如 GPU 或 TPU)的内存,并且简单地添加更多设备将 无助于扩大训练规模。翻译 2023-12-26 16:24:38 · 365 阅读 · 0 评论 -
Google Gemini Pro 测试
谷歌新发布了Gemini模型,说是吊打GPT4,上手使用了下,感觉一般,没有感觉到预期的吊打。下面是与Bard的对话。原创 2023-12-08 11:53:21 · 218 阅读 · 0 评论 -
BERT(二)--论文理解:BERT 模型结构详解
1. 整体结构2. 输入处理3. 输出处理3.1 nsp3.2 predict原创 2022-09-22 11:45:41 · 5104 阅读 · 1 评论 -
BERT(一)--论文翻译:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
文章目录 1 Introduction(简介)2 Related Work(相关工作)2.1 Feature-based Approaches(基于特征的方法)2.2 Fine-tuning Approaches (微调方法)2.3 Transfer Learning from Supervised Data(在有监督数据上的迁移学习)3 BERT3.1 Model Architecture(模型结构)3.2 Input Representation(输入表示)3.3 Pre-training Tasks.翻译 2022-05-19 12:02:12 · 2773 阅读 · 13 评论 -
Transformer(三)--论文实现:transformer pytorch 代码实现
文章目录1. transformer的基本结构2. 模块详解2.1 模块1:Positional Embedding2.2 模块2:Multi-Head Attention2.2.1 Scaled Dot-Product Attention2.2.2 Multi-Head2.3 模块3:ADD2.4 模块4:Layer Normalization2.5 模块5:Feed Forward NetWork2.6 模块6:Masked Multi-Head Attention2.7 模块7: Multi-Head原创 2022-05-18 15:41:39 · 6582 阅读 · 76 评论 -
Transformer(二)--论文理解:transformer 结构详解
文章目录1. transformer的基本结构2. 模块详解2.1 模块1:Positional Embedding(以下简称PE模块):2.2 模块2:Multi-Head Attention(多头注意力机制)2.2.1 Scaled Dot-Product Attention(缩放的点积注意力机制)2.2.2 Multi_Head(多头机制)2.3 模块3:ADD2.4 模块4:Layer Normalization2.5 模块5:Feed Forward NetWork2.6 模块6:Masked M原创 2020-12-10 12:26:23 · 17172 阅读 · 0 评论 -
神经网络的参数更新(BP算法)
最近面临换工作的问题,想把以前的算法知识捡一捡,1、向前算法#mermaid-svg-VhyBzTddVryJDIKa .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-VhyBzTddVryJDIKa .label text{fill:#333}#mermaid-svg-VhyBzTddVryJDIKa .n原创 2020-12-04 20:29:04 · 6966 阅读 · 2 评论 -
《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文翻译--中英对照
AbstractWe introduce a new language representa- tion model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models (Peters ...翻译 2020-06-02 17:37:04 · 7230 阅读 · 0 评论 -
Transformer(一)--论文翻译:Attention Is All You Need 中文版
Attention Is All Your Need 摘要 主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络,且都包含一个encoder和一个decoder。表现最好的模型还通过attention机制把encoder和decoder联接起来。我们提出了一个新的、简单的网络架构,Transformer. 它只基于单独的attention机制,完全避免使用循环和卷积。在两个翻译任务上表...翻译 2019-11-15 11:46:37 · 80725 阅读 · 281 评论