告别离线数据依赖，强化学习微调更高效

原创于 2024-12-12 11:31:17 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data

【要点】：本文提出了一种新的在线强化学习微调方法Warm-start RL（WSRL），该方法无需保留离线数据即可实现稳定高效的微调，避免了传统方法因离线数据限制导致的性能提升受限。
【方法】：通过分析离线数据在在线微调中的作用，提出WSRL方法，该方法在在线RL运行开始时使用预热阶段，通过预训练策略的少量运行来“重校准”离线Q函数至在线分布，从而无需依赖离线数据。
【实验】：实验证明WSRL能够在不保留任何离线数据的情况下进行微调，并且比保留或不保留离线数据的现有算法学习更快，性能更高。具体实验数据集名称未提及。
【链接】：https://www.aminer.cn/pub/67590103ae8580e7ff7f3e81/

Understanding Gradient Descent Through the Training Jacobian

【要点】：本文通过分析训练后神经网络参数相对于初始值的Jacobian矩阵，揭示了训练过程中的低维结构，并发现了Jacobian矩阵奇异值谱的三个独特区域，表明初始化扰动在训练过程中的传递特性。
【方法】：作者使用Jacobian矩阵分析神经网络训练过程中的几何结构，通过奇异值分解来探究参数变化与初始值之间的关系。
【实验】：作者在多个随机种子下对神经网络进行训练，使用MNIST数据集，发现不同初始化下的Jacobian矩阵在“主体”区域存在大量重叠的子空间，且这些子空间对网络输出在分布内几乎没有影响，而在分布外有显著影响。
【链接】：https://www.aminer.cn/pub/675900ecae8580e7ff7f1184/

The Pitfalls of Memorization: when Memorization Hurts Generalization

【要点】：论文探讨了神经网络在记忆特例时损害泛化能力的问题，并提出了一种新的训练策略——记忆感知训练（MAT），以提高模型在不同分布下的泛化性。
【方法】：作者通过形式化记忆与泛化之间的相互作用，揭示了依赖于偶然相关性的学习解释会导致泛化能力下降，并设计了MAT策略，利用保留的预测结果作为记忆信号来调整模型的logits。
【实验】：研究通过实验验证了MAT方法，实验使用了具体的数据集（未在文本中明确提到数据集名称），结果表明MAT能有效提高模型在分布偏移下的泛化能力。
【链接】：https://www.aminer.cn/pub/67590103ae8580e7ff7f3e32/

FlashRNN: Optimizing Traditional RNNs on Modern Hardware

【要点】：本文提出了一种名为FlashRNN的优化方法，通过在Triton和CUDA上对传统RNN进行硬件级优化，提高了其在现代GPU上的运行速度，并实现了类似Transformer的并行处理能力。
【方法】：作者通过优化内核至寄存器级别，并引入一个新的优化框架来适配不同GPU的内部缓存大小、内存和计算处理，从而改进传统RNN的并行化处理。
【实验】：研究使用自定义的数据集进行了实验，结果表明，所提出的FlashRNN内核相较于标准的PyTorch实现速度提升了50倍，并且与Triton实现相比，支持40倍更大的隐藏层大小。
【链接】：https://www.aminer.cn/pub/67590103ae8580e7ff7f3e77/

Flex Attention: A Programming Model for Generating Optimized Attention Kernels

【要点】：本文提出了一种新的编程模型FlexAttention，它通过编译器驱动的方式，使得实现多种注意力变体变得简单高效，有效解决了现有注意力机制中的“软件彩票”问题。
【方法】：FlexAttention通过使用简洁的PyTorch代码，允许研究人员以少量代码实现大多数注意力变体。
【实验】：本研究展示了FlexAttention能够实现如Alibi、Document Masking、PagedAttention等多种注意力变体，并且在性能上与手动编写的内核相当。具体实验数据集未在摘要中提及。
【链接】：https://www.aminer.cn/pub/6757af9fae8580e7ffb2a990/