小白学C++.-优快云博客

原创大模型论文：Language Models are Few-Shot Learners(GPT3)

我们证明了，扩大语言模型的规模在任务无关的 few-shot 学习任务中极大提升了表现，有时甚至能与此前最先进的微调方法相竞争。具体来说，我们训练了 GPT-3，这是一种具有 1750 亿参数的自回归语言模型，其参数数量是此前任何非稀疏语言模型的 10 倍。我们在 few-shot 设置中对其性能进行了测试。对于所有任务，GPT-3 都是在没有任何梯度更新或微调的情况下使用的，其任务和 few-shot 示例完全通过文本交互的方式输入给模型。

2025-04-12 22:47:37 262

原创大模型论文：Language Models are Unsupervised Multitask Learners(GPT2)

自然语言处理任务，例如问答、机器翻译、阅读理解和摘要，通常是通过对特定任务的数据集进行监督学习来实现的。我们展示了，语言模型在没有任何显式监督的情况下，仅通过训练一个名为 WebText 的包含数百万网页的新数据集，就开始学会这些任务。当模型以“文档 + 问题”的形式进行输入时，生成的回答在 CoQA 数据集上达到了 55 的 F1 分数 —— 这一成绩相当于或超过了四个基线系统中的三个的表现，而无需使用 127,000 多个训练样本。

2025-04-11 18:25:07 634

原创大模型论文：CRAMMING TRAINING A LANGUAGE MODEL ON ASINGLE GPU IN ONE DAY(效率提升)-final

近年来，语言建模的研究趋势集中在通过大规模扩展来提升性能，导致训练语言模型的成本变得高昂，使得大多数研究人员和从业者难以承担。在只有一块消费级GPU、仅训练一天的情况下，我们能取得多大的进展？我们研究了在这种受限环境下，从零开始使用掩码语言建模（Masked Language Modeling, MLM）训练的基于Transformer的语言模型，其在下游任务上的表现。除了重新分析几乎整个预训练流程以适配该场景，并提供一种在性能上接近BERT的修改版流程外，我们还探讨了为何缩小模型规模会如此困难。

2025-04-10 22:41:05 970

原创大模型论文：FlashAttention Fast and Memory-Efficient Exact Attention with IO-Awareness(效率提升)

Transformer 在处理长序列时速度慢、内存开销大，其原因在于自注意力机制的时间和内存复杂度与序列长度呈二次关系。尽管已有一些近似注意力机制尝试通过牺牲模型精度来降低计算复杂度，但这些方法往往无法在实际运行时间上实现提速。我们认为，这些方法缺少的一个核心原则是IO 感知（IO-aware）—— 即在算法设计中考虑 GPU 不同层级内存之间的数据读写开销。我们提出了，一种IO 感知的精确注意力算法，通过分块（tiling）机制来减少 GPU 高带宽内存（HBM）与片上 SRAM 之间的数据读写操作。

2025-04-08 22:56:24 597

原创大模型论文：BART

本文提出了 BART，一种用于预训练序列到序列模型（sequence-to-sequence models）的去噪自编码器（denoising autoencoder）。使用任意噪声函数对文本进行扰动（corrupt）；学习一个模型来重建原始文本。BERT（双向编码器）、GPT（左到右的解码器）、许多更近期的预训练方案本文评估了多种噪声策略，发现最优的方案是在原始句子中随机打乱顺序，并使用一种新颖的文本填充机制，该机制将文本中的连续片段用一个单一的 mask token 替换。

2025-04-08 15:16:53 479

原创大模型论文：Improving Language Understanding by Generative Pre-Training

自然语言理解包括各种各样的任务，如文本蕴涵、问题回答、语义相似性评估和文档分类。尽管大量未标记的文本语料库丰富，但用于学习这些特定任务的标记数据很少，这使得判别训练模型难以充分执行。我们证明，通过在不同的未标记文本语料库上对语言模型进行生成式预训练，然后对每个特定任务进行判别性微调，可以实现这些任务的巨大收益。与以前的方法相反，我们在微调期间利用任务感知输入转换来实现有效的传输，同时需要对模型体系结构进行最小的更改。我们在自然语言理解的广泛基准上证明了我们的方法的有效性。

2025-04-07 23:12:33 666