作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。
AMiner AI,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:https://www.aminer.cn/chat/g/explain
2023年9月25日精选新论文列表:
1.CodePlan: Repository-level Coding using LLMs and Planning
论文说明了在软件工程中,进行整个代码仓库的编辑活动(如包迁移、修复静态分析或测试中的错误报告,以及为代码库添加类型注释或其他规范)是一种复杂的任务,传统方法无法直接解决。虽然最近一些利用大型语言模型(LLMs)的工具(如GitHub Copilot)可以成功地提供局部编码问题的高质量解决方案,但对于整个代码库的编辑任务,传统方法无法适用,因为代码库中的代码是相互依赖的,而整个代码库可能太大而无法适应输入。因此,该论文提出了一种以规划问题的形式来解决整个代码库的编辑任务的框架,称为CodePlan。CodePlan通过将整个编辑过程分解为多个步骤(计划),每个步骤都会对代码库中的某个位置进行编辑,上下文由整个代码库、之前的代码修改和任务特定的指令决定,并调用LLM。CodePlan基于一种增量依赖分析、变更可能影响分析和自适应规划算法的新颖组合。实验结果表明,与基准方法相比,CodePlan能更好地匹配基准结果,并且在验证检查(如无错误地构建和正确的代码编辑)方面,CodePlan能将5/6个代码库通过,而基准方法不能通过任何代码库的验证检查。
https://www.aminer.cn/pub/6510edb83fda6d7f06b90db1/?f=cs
2.MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation
该研究解决了大词汇量实例分割中的数据增强问题。研究提出了一种基于扩散模型的数据增强方法,称为MosaicFusion。该方法无需训练,不依赖于任何标签监督,并能够利用现成的文本到图像扩散模型作为有用的数据集生成器。研究通过将图像画布划分为多个区域,并在不同的文本提示条件下进行一轮扩散过程,同时生成多个实例。然后,通过聚合与对象提示相关的跨注意力图,并在扩散的多个层次和时间步骤后,进行简单的阈值处理和边缘感知的精化处理,获取相应的实例掩码。实验证明,MosaicFusion能够生成大量的合成标注数据,特别是对于罕见和新颖的类别。在LVIS长尾和开放词汇基准上,MosaicFusion能够显著改善现有实例分割模型的性能。
https://www.aminer.cn/pub/6510edb83fda6d7f06b90fd8/?f=cs
3.Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models
研究指出大型语言模型(LLMs)在理解复杂对话任务时经常遇到困难。为了解决这个问题,研究提出了一种名为"Self-Explanation"的策略,通过在任务执行之前分析每个对话发言来提升LLMs的理解能力。实验证明,这种方法在六个基准数据集上始终优于其他零-shot提示,并且与少量-shot提示的效果相匹配或超越,证明了它在提高LLMs在复杂对话任务中理解能力方面的潜力。
https://www.aminer.cn/pub/6510edb83fda6d7f06b90f71/?f=cs
4.Dynamic ASR Pathways: An Adaptive Masking Approach Towards Efficient Pruning of A Multilingual ASR Model
本文介绍了如何通过使用自适应掩膜方法来高效地剪枝多语种自动语音识别模型。作者指出,神经网络剪枝是一种有效的方法,可以在几乎不损失性能的情况下压缩多语种ASR模型。然而,每种语言都需要运行多轮剪枝和重新训练,这是一项繁琐的工作。因此,作者提出了一种自适应掩膜方法,可以在两种场景下高效地剪枝多语种ASR模型,从而得到稀疏的单语种模型或稀疏的多语种模型(称为动态ASR Pathways)。该方法动态地适应子网络,避免了固定子网络结构的早期决策。研究结果表明,该方法在目标为稀疏单语种模型时优于现有的剪枝方法。此外,作者还证明了动态ASR Pathways可以通过从不同的子网络初始化中进行自适应来寻找和训练更好的单一多语种模型的子网络(路径),从而减少了语言特定剪枝的需求。
https://www.aminer.cn/pub/6510edb83fda6d7f06b90fc0/?f=cs
5.Robotic Offline RL from Internet Videos via Value-Function Pre-Training
论文讨论了将互联网视频应用于机器人强化学习中的问题。论文指出,以往在互联网数据上进行预训练已经被证明是许多现代机器学习系统广泛泛化的关键因素。然而,对于机器人强化学习来说,如何将这种能力应用到其中仍存在挑战。离线强化学习方法可以通过利用机器人经验数据集来解决这个问题。然而,这些方法与视频数据存在一种"类型不匹配",因为视频数据(如Ego4D)只提供了观察经验,缺乏RL方法所需的行动和奖励注释。因此,本文开发了一个完全基于时序差异学习的系统,可以利用大规模的人类视频数据集进行机器人离线强化学习。研究表明,在视频数据集上进行价值学习可以学习到更利于机器人离线强化学习的表示。该系统将在视频数据上的预训练优势与在多样的机器人数据上进行离线强化学习的方法相结合,从而得到更好的价值函数和策略,可以在操纵任务中表现更好、更稳健并实现广泛泛化。在一个真实的WidowX机器人上进行的几个操纵任务中,我们的框架比以往的方法有了显著的改进。
https://www.aminer.cn/pub/6510edb83fda6d7f06b90fd7/?f=cs
6.DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion
论文中指出了自注意力机制的视觉Transformer(ViTs)在计算机视觉领域中具有竞争力,能够实现全局信息共享。然而,自注意力的二次复杂度使ViTs的计算成本很高,并且它们在局部信息和平移等变性方面缺乏归纳偏差,相比于卷积神经网络(CNNs),需要更大的模型尺寸来有效学习视觉特征。为了解决这个问题,该论文提出了一种名为DualToken-ViT的轻量高效视觉Transformer模型,利用了CNNs和ViTs的优势。DualToken-ViT通过有效地融合基于卷积结构获取的局部信息和基于自注意力结构获取的全局信息来实现高效的注意力结构。此外,论文还使用具有位置感知能力的全局tokens来丰富全局信息,并进一步增强DualToken-ViT的效果。位置感知的全局tokens还包含图像的位置信息,使得我们的模型对于视觉任务更加适用。论文通过在图像分类、目标检测和语义分割任务上进行广泛实验证明了DualToken-ViT的有效性。在ImageNet-1K数据集上,我们的不同尺度的模型在只使用0.5G和1.0G FLOPs的情况下分别实现了75.4%和79.4%的准确率,而我们的1.0G FLOPs模型的表现优于使用全局tokens的LightViT-T模型0.7%。
文章介绍了科研人员如何借助AMinerAI提升工作效率,涵盖CodePlan、MosaicFusion、Self-Explanation等技术在各自领域的创新应用,以及离线RL和视觉Transformer在实际问题中的解决方案。
2万+

被折叠的 条评论
为什么被折叠?



