人机共舞:8小时艺术挑战,舞者与机器人臂的创意对决!| 11.21热门论文

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

今日热门论文,英伟达、特拉维夫大学等机构提出Add-it,用预训练扩散模型把东西随心放进图片;通过专家监督构建了通用型图像编辑模型,使得图像处理更加高效和多样化-OmniEdit。更多论文请看下文。

Breathless: an 8-Hour Performance Contrasting Human and Robot Expressiveness

【要点】:本文介绍了将人类舞者与工业机器人臂配对进行为期8小时的舞蹈表演的机器人技术,突显了人类与机器人表达性的对比。
【方法】:研究中通过结合正弦运动及深度学习技术,模仿人类劳动中的常见动作,并实时创造机器人动作以配合舞蹈。
【实验】:实验通过一种定制化的Python软件结合AppleScript、Keynote和Zoom,实现舞者与机器人之间的舞台互动,表演使用的数据集和代码已发布在项目网站上。
【链接】https://www.aminer.cn/pub/673e9978ae8580e7ff81aba0

Don’t Look Twice: Faster Video Transformers with Run-Length Tokenization

【要点】:本文提出了一种名为Run-Length Tokenization(RLT)的方法,通过移除视频序列中重复的patches来加速视频Transformers的训练和推理过程。
【方法】:RLT方法在模型推理前自动检测并移除连续时间内的重复patches,用一个单一patches和位置编码代替,以表示新的token长度。
【实验】:作者在未进行任何数据集特定调优的情况下,使用RLT方法对视频Transformer模型进行了训练,实验结果显示,RLT将模型训练时间减少了30%,且无需训练即可提高模型吞吐量,增加了35 FPS,最高可提高至80 FPS。具体数据集名称未在摘要中提及。
【链接】https://www.aminer.cn/pub/67319b6601d2a3fbfc10d1b9

PromptFix: You Prompt and We Fix the Photo

【要点】:本文提出了PromptFix框架,通过构建大规模指令跟随数据集、采用高频指导采样方法和设计辅助提示适配器,提升了扩散模型遵循人类指令执行多样化图像处理任务的能力,并在保留图像细节方面有显著改进。
【方法】:研究采用了一种结合语言模型的扩散模型,并提出了高频指导采样方法以及利用视觉语言模型的辅助提示适配器,以提高模型对指令的理解和执行能力。
【实验】:实验构建了一个包含多种图像处理任务的大规模指令跟随数据集,并通过实验验证了PromptFix在各类图像处理任务中的性能优于先前方法,同时具备高效的推理能力和在盲恢复和组合任务中的零样本能力。数据集和代码将公布于https://github.com/yeates/PromptFix。
【链接】https://www.aminer.cn/pub/66553aff01d2a3fbfc9fd07d

Harmonizing Visual Text Comprehension and Generation

【要点】:本文提出TextHarmony,一个在视觉文本理解和生成方面表现优异的统一多模态生成模型,通过Slide-LoRA技术实现视觉和语言的生成和谐,并开发了高质量图像标题数据集DetailedTextCaps-100K。
【方法】:提出Slide-LoRA方法,动态聚合模态特定和模态不可知的LoRA专家,部分解耦多模态生成空间。
【实验】:通过各种基准测试的综合实验表明,TextHarmony在参数仅为特定微调结果的2倍时,平均提高了2.5个点的理解任务表现和4.0个点的生成任务表现,证明了在视觉文本领域内集成多模态生成的可行性。
【链接】https://www.aminer.cn/pub/66a0600401d2a3fbfcb1c236

Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling

【要点】:本文提出了一种新的评估框架,用于大规模评估采样蒙特卡洛方法、变分推理及其组合方法,并对现有方法的优势和不足提供了洞见。
【方法】:研究通过构建一个标准化的任务集和广泛的性能评估标准,对不同的采样方法进行统一评价,并研究了现有的模态崩溃量化指标,同时提出了新的指标。
【实验】:实验在多个数据集上进行,通过综合评估现有和新型采样方法的性能,揭示了它们在不同任务上的表现和优缺点。
【链接】https://www.aminer.cn/pub/6669032301d2a3fbfc44e8b2

查看完整热门论文合集:https://www.aminer.cn/topic/6733669ec42ad45487589f46

AMiner AI对话入口:

https://www.aminer.cn/chat/g/explain

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值