
论文系列
文章平均质量分 89
StarCap
这个作者很懒,什么都没留下…
展开
-
【论文阅读】Reducing Activation Recomputation in Large Transformer Models
训练大型 Transformer 模型是现代人工智能最重要的计算挑战之一。在本文中,我们展示了如何通过减少激活值的重新计算来显著加速大型 Transformer 模型的训练。激活值重新计算通常用于解决内存容量限制问题。传统上,为了节省内存,不存储用于反向传播的激活值,而是重新计算它们,但这增加了冗余计算。在这项工作中,我们表明大部分这种冗余计算是不必要的,因为我们可以在不进行冗余计算的情况下充分减少内存消耗。我们提出了两种新颖且非常简单的技术:序列并行和选择性激活值重新计算。原创 2024-12-27 09:56:08 · 1501 阅读 · 0 评论 -
【论文阅读】文生图模型Playground v3(PGV3)技术报告
我们推出了 Playground v3 (PGv3),这是我们最新的文本转图像模型,它在多个测试基准中实现了最先进 (SoTA) 的性能,在图形设计能力方面表现出色,并引入了新功能。与依赖于预训练语言模型(如 T5 或 CLIP 文本编码器)的传统文本转图像生成模型不同,我们的方法将大型语言模型 (LLM) 与新颖的结构完全集成,该结构专门利用来自解码器专用 LLM 的文本条件。此外,为了提高图像字幕质量,我们开发了一个内部字幕器,能够生成具有不同细节级别的字幕,丰富文本结构的多样性。原创 2024-12-19 21:41:02 · 439 阅读 · 0 评论 -
【论文翻译】Paraformer语音识别(ASR)
使用公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务进行的实验表明,提出的 Paraformer 可以达到与最先进的 AR 变换器相当的性能,速度提高 10 倍以上。原创 2024-12-13 23:49:21 · 1310 阅读 · 0 评论