苹果视频生成大模型STIV,87亿参数一统T2V、TI2V任务

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

STIV: Scalable Text and Image Conditioned Video Generation

【要点】:本文提出了一种名为STIV的文本和图像条件视频生成方法,该方法通过融合图像条件和文本条件,实现了简单且可扩展的视频生成架构,并在多个任务中表现出优异性能。
【方法】:STIV方法将图像条件通过帧替换集成到扩散变压器(DiT)中,并将文本条件通过联合图像-文本条件无指导分类器实现,同时支持文本到视频(T2V)和文本-图像到视频(TI2V)任务。
【实验】:通过对T2I、T2V和TI2V的全面消融研究,STIV在VBench T2V任务中达到83.1分,超越了CogVideoX-5B、Pika、Kling和Gen-3等领先的开源和闭源模型;在VBench I2V任务中达到90.1分,使用的模型和数据集未具体说明。
【链接】:https://www.aminer.cn/pub/67590103ae8580e7ff7f3e65

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

【要点】:本文提出了一种新型语言模型架构,通过在潜在空间进行隐式推理,实现测试时的计算扩展,无需额外训练数据即可提升推理性能。
【方法】:模型通过迭代一个循环块,测试时可以展开到任意深度,与主流通过生成更多标记来扩展计算的方法不同。
【实验】:作者将概念验证模型扩展到35亿参数和8000亿个标记,并在推理基准测试中展示了模型的性能提升,最高可达相当于500亿参数的计算负载。
【链接】:https://www.aminer.cn/pub/67a96bc8ae8580e7ffb4b3fd

Evaluating and Aligning CodeLLMs on Human Preference

【要点】:本文提出了一种新的基准CodeArena,用于评估和优化代码生成模型与人类偏好的对齐度,并揭示了现有模型在执行基准和人类偏好对齐方面的性能差异。
【方法】:通过构建一个由397个高质量样本组成的CodeArena数据集,这些样本涵盖了40个类别和44种编程语言,并从用户查询中精心挑选,以模拟现实世界的编码任务复杂性。
【实验】:使用CodeArena对40多种大型语言模型进行了系统实验,并使用SynCode-Instruct(近20B标记的数据集)来验证大规模合成指令微调的有效性,结果显示开源代码LLM(如Qwen2.5-SynCoder)在合成指令数据上训练后达到了顶级性能。实验发现,基于执行的基准和CodeArena之间存在性能差异。
【链接】:https://www.aminer.cn/pub/67565a4bae8580e7ff8e0fbd

Training Large Language Models to Reason in a Continuous Latent Space

【要点】:本文提出了一种新型推理范式Coconut,通过在连续潜在空间而非自然语言空间中训练大型语言模型(LLM),实现更高效的推理过程。
【方法】:作者将LLM的最后隐藏状态作为推理状态的表示,直接在连续空间中将该状态作为后续输入嵌入,而不是将其解码为单词标记。
【实验】:通过在多个推理任务上使用Coconut方法,实验结果显示该范式能够有效增强LLM的推理能力,并在某些需要大量回溯计划的逻辑推理任务中优于传统的链式思维(CoT)。使用的数据集名称未在摘要中明确提及,但结果证明了潜在空间推理的潜力。
【链接】:https://www.aminer.cn/pub/6757c48cae8580e7ffe1eba7

Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

【要点】:本文提出了一种基于认知科学的分类方法,用以明确定义强化学习(RL)代理中的记忆类型,并建立了一套评价记忆能力的实验方法,以促进对不同记忆增强型代理的客观比较。
【方法】:文中借鉴认知科学理论,对RL代理的记忆类型进行了精确分类,包括长期与短期记忆、陈述性与程序性记忆,并依此制定了评价RL代理记忆能力的标准化方法。
【实验】:作者通过使用不同RL代理在特定任务上进行实验,验证了所提出评价方法的有效性,实验采用了多个RL代理,并在遵守与违反所提出方法的情况下进行了对比,但未明确提及数据集名称。
【链接】:https://www.aminer.cn/pub/6757afb1ae8580e7ffb2e6e2

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

【要点】:论文提出了一种新的同步多摄像头视频生成方法SynCamMaster,通过增强预训练的文本到视频模型,实现了开放世界视频中不同视角间的动态一致性。
【方法】:作者设计了一个即插即用的多视角同步模块,该模块能够维持多视角间外观和几何的一致性。
【实验】:研究中采用了一种混合训练方案,结合多摄像头图像、单目视频以及虚幻引擎渲染的多摄像头视频来训练模型,并发布了一个名为SynCamVideo-Dataset的多视角同步视频数据集。
【链接】:https://www.aminer.cn/pub/67590103ae8580e7ff7f3e7f

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值