大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain
今日热门论文,英伟达、特拉维夫大学等机构提出Add-it,用预训练扩散模型把东西随心放进图片;通过专家监督构建了通用型图像编辑模型,使得图像处理更加高效和多样化-OmniEdit。更多论文请看下文。
Counterfactual Generation from Language Models
【要点】:研究者提出了一种基于广义结构方程模型的框架,通过使用Gumbel-max技巧来生成真实的字符串反事实。研究通过开发的回顾Gumbel抽样算法推断潜在噪声变量,并生成观察到的字符串的反事实。
【方法】:这篇论文提出了一种名为“LameR”(Language Model as a Retriever)的简单方法,旨在解决零样本场景下利用大型语言模型(LLM)进行大规模检索的问题。
【实验】:论文在多个数据集(COCO、Flickr30k、TRECVID 和新闻检索)上进行了实验,以验证 LameR 方法的有效性。结果表明,LameR 在所有数据集上都能显著提升检索性能,尤其是在自监督检索器性能较弱的情况下。这些结果表明,LameR 是一种简单有效的方法,可以显著提升零样本场景下 LLM 的检索性能。
【链接】:https://www.aminer.cn/pub/6732e45901d2a3fbfc3810ef
Score-based Generative Diffusion with “active” Correlated Noise Sources
【要点】:本文提出了一种基于“活性”相关噪声源的评分型生成扩散模型,通过引入具有时间相关性的噪声源,扩展了数据维度,并构建了相应的反向过程和损失函数。
【方法】:通过引入具有时间相关性的噪声源,将数据维度扩展到原始数据维度加上一个额外的自由度,从而破坏数据结构并学习其潜在分布。通过反向扩散过程,模型能够根据训练的神经网络从高斯分布中生成与原始数据相似的新样本。
【实验】:实验结果表明,该模型在多种数据集上优于传统的被动扩散模型,能够更好地捕捉数据分布的结构和相关性。研究表明,活性噪声源通过多种机制提升了模型的生成性能,包括降低得分函数的复杂性、改善采样质量和加速数据分类等。
【链接】:https://www.aminer.cn/pub/6732e15801d2a3fbfc2848e3
Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching
【要点】:本文提出了一种名为 Successor Feature Matching (SFM) 的新型非对抗性逆强化学习 (IRL) 方法,它通过直接优化策略来匹配专家和代理的状态继任特征,从而实现模仿学习。
【方法】:SFM 无需学习奖励函数,并能够无缝地与现有的演员-评论家强化学习算法配合使用。与其他方法相比,SFM 在只使用专家状态的情况下也能进行学习,而无需专家动作标签,这是行为克隆 (BC) 无法实现的。
【实验】:实验结果表明,SFM 能够从单个专家演示中进行学习,并在各种控制任务中取得了优于其他方法的性能。
【链接】:https://www.aminer.cn/pub/6732e41901d2a3fbfc374742
Does your LLM truly unlearn? An embarrassingly simple approach to recover unlearned knowledge
【要点】:这篇论文探讨了大型语言模型(LLM)在进行机器遗忘(machine unlearning)后是否真正忘记了特定知识。研究发现,当前遗忘方法虽然有效,但可能只是隐藏了知识而非真正删除。
【方法】:通过应用量化技术,可以恢复这些“遗忘”的信息。论文通过使用多种量化技术在不同的精度级别上进行大量实验,发现经过遗忘处理的模型在全精度下仍保留了约21%的遗忘知识,而在4位量化后这一比例上升至83%。
【实验】:基于这些实验结果,论文提供了现象的理论解释,并提出了一种抗量化干扰的遗忘策略来解决这个问题。
【链接】:https://www.aminer.cn/pub/67185d6d01d2a3fbfc51a491
Learning Interpretable Network Dynamics Via Universal Neural Symbolic Regression
【要点】:本研究提出了一种通用的计算工具,通过结合深度学习的优良拟合能力和预训练符号回归的方程推导能力,能够自动、高效、精确地学习复杂系统状态变化的符号模式。
【方法】:研究在物理、生物化学、生态学、流行病学等领域的十多个代表性场景中进行了密集的实验验证,结果表明该工具在处理网络动态方面相较于最先进的符号回归技术具有卓越的有效性和效率。此外,将该工具应用于现实世界系统,如全球疫情传播和行人运动,证实了其实际应用价值。
【实验】:研究者认为,该工具可以作为解决复杂现象背后隐藏机制的一种通用解决方案,有助于推动可解释性研究,并激发更多的科学发现。
【链接】:https://www.aminer.cn/pub/6732e3e801d2a3fbfc362677
查看完整热门论文合集:https://www.aminer.cn/topic/6733669ec42ad45487589f46