语法正则化 TREEREG：让 Transformer 语言模型更懂语言

原创于 2024-12-03 13:40:42 发布 · 962 阅读

CC 4.0 BY-SA版权

文章标签：

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

Sneaking Syntax into Transformer Language Models with Tree Regularization

【要点】：本文提出了一种新的正则化方法TREEREG，将句法诱导偏差柔和地注入变换器语言模型中，从而提高模型在句法泛化和数据效率方面的性能。
【方法】：通过引入TREEREG正则化器，将银标准解析的括号决策转换为向量隐藏状态的可微分正交性约束，无需对模型架构进行更改。
【实验】：在WikiText-103自然语言语料库上预训练的语言模型使用TreeReg，实现了最多10个分布外数据点和最多9.5点的句法泛化改进，且所需训练数据不到标准语言模型的一半。继续在Sheared Llama模型上使用TreeReg进行预训练，以及在对MultiNLI进行微调时，均显示出句法泛化的提升，并使对抗性自然语言推理基准的退化减少了41.2点。
【链接】：https://www.aminer.cn/pub/674d27b0ae8580e7ffb7a96f/

Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models

【要点】：本文提出了Auto-RAG，一种基于大型语言模型（LLM）强大决策能力的自主迭代检索模型，有效提升检索增强生成（RAG）的性能。
【方法】：通过多轮对话，Auto-RAG系统性地规划检索和优化查询，自主合成基于推理的决策指令。
【实验】：在六个基准测试中，使用Auto-RAG进行实验，结果表明模型能有效利用LLM的推理和决策能力，并可根据问题难度和检索知识的效用自主调整迭代次数，无需人工干预。代码和数据集已公开。
【链接】：https://www.aminer.cn/pub/674d27b0ae8580e7ffb7abca/

JetFormer: an Autoregressive Generative Model of Raw Images and Text

【要点】：本文提出了JetFormer，一种无需依赖预训练组件、能直接最大化原始数据概率的自动回归解码器，实现了对图像和文本的统一生成和理解，达到与现有基准相当的高质量文本到图像生成效果。
【方法】：通过结合正常化流模型和自动回归多模态变换器，JetFormer能够直接从原始数据中学习，无需使用单独的模态特定编码器和解码器。
【实验】：JetFormer在多个任务中表现出色，使用的数据集未明确提及，但结果显示其在文本到图像生成质量上与基于VQ-VAE和VAE的基线模型相当，并能够产生强大的对数似然界。
【链接】：https://www.aminer.cn/pub/674d27d4ae8580e7ffb7f2d4/

DeMo: Decoupled Momentum Optimization

【要点】：论文提出了一种新的优化算法Decoupled Momentum（DeMo），通过解耦动量更新并允许优化器状态在加速器间可控发散，显著降低了训练大规模神经网络时加速器间的通信需求，提高了收敛速度，无需高速互联即可预训练大规模基础模型。
【方法】：作者采用信号处理中的频率分解和能量压缩原理，设计了一种新的融合优化器和数据并行算法DeMo，该算法允许在加速器间进行动量更新的解耦，减少了优化器状态的同步需求。
【实验】：通过实验验证，使用DeMo算法训练的模型在性能上可以匹配或超过使用AdamW算法训练的模型，且在预训练大规模基础模型时无需高速互联。实验使用的数据集和具体结果未在摘要中提及，但论文提供了开源的PyTorch实现，可在GitHub上查看。
【链接】：https://www.aminer.cn/pub/674d27d4ae8580e7ffb7f37c/

Reverse Thinking Makes LLMs Stronger Reasoners

【要点】：本文提出了Reverse-Enhanced Thinking（RevThink）框架，通过数据增强和多重学习目标，使大型语言模型（LLM）能够执行逆向思维，提高推理能力，平均提升12个数据集上的推理性能13.53%
【方法】：作者采用了一种包含数据增强和学习目标相结合的方法，通过收集教师模型的正向和逆向推理数据，训练学生模型在多任务学习模式下生成正向推理、逆向问题和逆向推理。
【实验】：研究者在12个涉及常识、数学和逻辑推理的数据集上进行了实验，包括使用RevThink框架增强数据集，并采用三个训练目标。结果显示该方法在样本效率上表现突出，仅需使用训练数据中的10个正确正向推理即可超过标准微调方法，且该方法在未见过分布的数据集上也有良好的泛化能力。
【链接】：https://www.aminer.cn/pub/674d27d4ae8580e7ffb7f376/