大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain
今日热门论文,英伟达、特拉维夫大学等机构提出Add-it,用预训练扩散模型把东西随心放进图片;通过专家监督构建了通用型图像编辑模型,使得图像处理更加高效和多样化-OmniEdit。更多论文请看下文。
Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models
【要点】:论文提出了一种无需训练的图像编辑方法Add-it,利用预训练的扩散模型,通过扩展注意力机制实现基于文本指令的对象插入,达到了当前最佳效果,并在多个自动化指标上展现出改进。
【方法】:Add-it方法通过将扩散模型的注意力机制扩展,融合场景图像、文本提示和生成图像的信息,使用加权扩展注意力机制以保持结构一致性和细节,同时确保对象的自然放置。
【实验】:研究者在真实和生成的图像插入基准测试中评估了Add-it的性能,包括新构建的“添加适宜性基准”(Additing Affordance Benchmark)以评估对象放置的合理性,实验结果显示Add-it优于监督学习方法,并在超过80%的案例中获得了人类评价的偏好。
【链接】:https://www.aminer.cn/pub/6732e46401d2a3fbfc3884a5
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
【要点】:本文提出了OmniEdit,一种能够处理七种不同图像编辑任务且不受比例限制的全能编辑模型,通过融合专家模型的监督、使用基于大型多模态模型评分的重要性采样、提出新的编辑架构EditNet,以及支持不同比例的图像,显著超越了现有模型。
【方法】:OmniEdit通过七种不同专家模型的监督训练,结合重要性采样和新的编辑架构EditNet,实现了对图像编辑任务的广泛覆盖和高效处理。
【实验】:研究者在包含不同比例图像和多样化指令的测试集上进行了自动和人工评估,结果显示OmniEdit性能显著优于现有模型。具体数据集名称在论文中未明确提及。
【链接】:https://www.aminer.cn/pub/6732e45d01d2a3fbfc3836b3
Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models
【要点】:本文提出了Chinese SimpleQA,一个用于评估大型语言模型中文事实性回答能力的全新基准,具有中文特性、多样性、高质量、静态和易于评估五大特点。
【方法】:通过聚焦于中文语言,覆盖6大主题下的99个子主题,进行全面的质控流程以确保问题和答案的高质量,并采用简短的问题和答案设计,使得评分过程基于OpenAI API易于评估。
【实验】:作者基于Chinese SimpleQA对现有LLM的事实性能力进行了全面评估,使用的数据集名称为Chinese SimpleQA,并期待该基准能够帮助开发者更好地理解模型在中文事实性方面的能力,推动基础模型的进步。
【链接】:https://www.aminer.cn/pub/6732e44a01d2a3fbfc377c4e
M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework
【要点】:本文提出了M-LongDoc,一个针对多模态超长文档理解的新基准,并引入了一个检索感知调整框架,以提升大型多模态模型的性能。
【方法】:作者通过构建一个包含851个样本的M-LongDoc基准,并提出了一种针对多模态文档阅读的检索感知调整方法,直接解决长文档检索场景的问题。
【实验】:实验中,作者使用自动构建的训练语料库对开源模型进行微调,结果显示该方法相较于基线模型实现了4.6倍的相对改进。所使用的数据集为M-LongDoc。
【链接】:https://www.aminer.cn/pub/6732e2f001d2a3fbfc2feab5
Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models
【要点】:论文提出了一种名为Edify Image的高质量图像生成方法,通过像素空间Laplacian扩散模型实现了照片级真实感的图像内容生成,具有像素级精确度。
【方法】:Edify Image采用级联像素空间扩散模型,并使用创新的Laplacian扩散过程进行训练,该方法通过对不同频率带的图像信号以不同速率进行衰减。
【实验】:论文通过多个应用实例验证了模型效果,包括文本到图像合成、4K图像超采样、ControlNets、360 HDR全景图生成和图像定制化的微调,但未具体提及使用的数据集名称及实验结果。
【链接】:https://www.aminer.cn/pub/6732e44301d2a3fbfc377723
查看完整热门论文合集:https://www.aminer.cn/topic/6733669ec42ad45487589f46