语法正则化 TREEREG:让 Transformer 语言模型更懂语言

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

Sneaking Syntax into Transformer Language Models with Tree Regularization

【要点】:本文提出了一种新的正则化方法TREEREG,将句法诱导偏差柔和地注入变换器语言模型中,从而提高模型在句法泛化和数据效率方面的性能。
【方法】:通过引入TREEREG正则化器,将银标准解析的括号决策转换为向量隐藏状态的可微分正交性约束,无需对模型架构进行更改。
【实验】:在WikiText-103自然语言语料库上预训练的语言模型使用TreeReg,实现了最多10个分布外数据点和最多9.5点的句法泛化改进,且所需训练数据不到标准语言模型的一半。继续在Sheared Llama模型上使用TreeReg进行预训练,以及在对MultiNLI进行微调时,均显示出句法泛化的提升,并使对抗性自然语言推理基准的退化减少了41.2点。
【链接】:https://www.aminer.cn/pub/674d27b0ae8580e7ffb7a96f/

Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models

【要点】:本文提出了Auto-RAG,一种基于大型语言模型(LLM)强大决策能力的自主迭代检索模型,有效提升检索增强生成(RAG)的性能。
【方法】:通过多轮对话,Auto-RAG系统性地规划检索和优化查询,自主合成基于推理的决策指令。
【实验】:在六个基准测试中,使用Auto-RAG进行实验,结果表明模型能有效利用LLM的推理和决策能力,并可根据问题难度和检索知识的效用自主调整迭代次数,无需人工干预。代码和数据集已公开。
【链接】:https://www.aminer.cn/pub/674d27b0ae8580e7ffb7abca/

JetFormer: an Autoregressive Generative Model of Raw Images and Text

【要点】:本文提出了JetFormer,一种无需依赖预训练组件、能直接最大化原始数据概率的自动回归解码器,实现了对图像和文本的统一生成和理解,达到与现有基准相当的高质量文本到图像生成效果。
【方法】:通过结合正常化流模型和自动回归多模态变换器,JetFormer能够直接从原始数据中学习,无需使用单独的模态特定编码器和解码器。
【实验】:JetFormer在多个任务中表现出色,使用的数据集未明确提及,但结果显示其在文本到图像生成质量上与基于VQ-VAE和VAE的基线模型相当,并能够产生强大的对数似然界。
【链接】:https://www.aminer.cn/pub/674d27d4ae8580e7ffb7f2d4/

DeMo: Decoupled Momentum Optimization

【要点】:论文提出了一种新的优化算法Decoupled Momentum(DeMo),通过解耦动量更新并允许优化器状态在加速器间可控发散,显著降低了训练大规模神经网络时加速器间的通信需求,提高了收敛速度,无需高速互联即可预训练大规模基础模型。
【方法】:作者采用信号处理中的频率分解和能量压缩原理,设计了一种新的融合优化器和数据并行算法DeMo,该算法允许在加速器间进行动量更新的解耦,减少了优化器状态的同步需求。
【实验】:通过实验验证,使用DeMo算法训练的模型在性能上可以匹配或超过使用AdamW算法训练的模型,且在预训练大规模基础模型时无需高速互联。实验使用的数据集和具体结果未在摘要中提及,但论文提供了开源的PyTorch实现,可在GitHub上查看。
【链接】:https://www.aminer.cn/pub/674d27d4ae8580e7ffb7f37c/

Reverse Thinking Makes LLMs Stronger Reasoners

【要点】:本文提出了Reverse-Enhanced Thinking(RevThink)框架,通过数据增强和多重学习目标,使大型语言模型(LLM)能够执行逆向思维,提高推理能力,平均提升12个数据集上的推理性能13.53%
【方法】:作者采用了一种包含数据增强和学习目标相结合的方法,通过收集教师模型的正向和逆向推理数据,训练学生模型在多任务学习模式下生成正向推理、逆向问题和逆向推理。
【实验】:研究者在12个涉及常识、数学和逻辑推理的数据集上进行了实验,包括使用RevThink框架增强数据集,并采用三个训练目标。结果显示该方法在样本效率上表现突出,仅需使用训练数据中的10个正确正向推理即可超过标准微调方法,且该方法在未见过分布的数据集上也有良好的泛化能力。
【链接】:https://www.aminer.cn/pub/674d27d4ae8580e7ffb7f376/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值