浙大、快手等机构提出多相机视频生成系统：SynCamMaster

原创于 2024-12-14 12:38:28 发布 · 865 阅读

CC 4.0 BY-SA版权

文章标签：

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

STIV: Scalable Text and Image Conditioned Video Generation

【要点】：本文提出了一种名为STIV的文本和图像条件视频生成方法，该方法通过融合图像条件和文本条件，实现了简单且可扩展的视频生成架构，并在多个任务中表现出优异性能。
【方法】：STIV方法将图像条件通过帧替换集成到扩散变压器（DiT）中，并将文本条件通过联合图像-文本条件无指导分类器实现，同时支持文本到视频（T2V）和文本-图像到视频（TI2V）任务。
【实验】：通过对T2I、T2V和TI2V的全面消融研究，STIV在VBench T2V任务中达到83.1分，超越了CogVideoX-5B、Pika、Kling和Gen-3等领先的开源和闭源模型；在VBench I2V任务中达到90.1分，使用的模型和数据集未具体说明。
【链接】：https://www.aminer.cn/pub/67590103ae8580e7ff7f3e65

Evaluating and Aligning CodeLLMs on Human Preference

【要点】：本文提出了一种新的基准CodeArena，用于评估和优化代码生成模型与人类偏好的对齐度，并揭示了现有模型在执行基准和人类偏好对齐方面的性能差异。
【方法】：通过构建一个由397个高质量样本组成的CodeArena数据集，这些样本涵盖了40个类别和44种编程语言，并从用户查询中精心挑选，以模拟现实世界的编码任务复杂性。
【实验】：使用CodeArena对40多种大型语言模型进行了系统实验，并使用SynCode-Instruct（近20B标记的数据集）来验证大规模合成指令微调的有效性，结果显示开源代码LLM（如Qwen2.5-SynCoder）在合成指令数据上训练后达到了顶级性能。实验发现，基于执行的基准和CodeArena之间存在性能差异。
【链接】：https://www.aminer.cn/pub/67565a4bae8580e7ff8e0fbd

DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

【要点】：论文提出了一种新的框架DiffSensei，通过融合扩散模型与多模态大型语言模型，实现了具有动态多角色控制的定制漫画生成任务，并在MangaZero数据集上展示了优越性能。
【方法】：DiffSensei使用了一个基于扩散的图像生成器和一个作为文本兼容身份适配器的多模态大型语言模型（MLLM），通过masked cross-attention机制整合角色特征，实现了无需直接像素转移的精确布局控制。
【实验】：作者在MangaZero数据集上进行了大量实验，该数据集包含43,264个漫画页面和427,147个注释面板，实验结果表明DiffSensei在漫画生成方面的性能优于现有模型。
【链接】：https://www.aminer.cn/pub/67590103ae8580e7ff7f3dbf

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

【要点】：论文提出了一种结合自回归模型和参数扩散的ACDiT模型，实现了视觉信息生成任务的优化，并具有在统一多模态模型中的潜力。
【方法】：通过在自回归模型与全参数扩散之间进行插值，提出ACDiT模型，使用Skip-Causal Attention Mask（SCAM）进行训练，实现视觉信息的高效生成。
【实验】：研究在图像和视频生成任务上验证了ACDiT模型的有效性，使用了公开数据集进行实验，并展示了模型在视觉理解任务中的应用潜力。
【链接】：https://www.aminer.cn/pub/67590103ae8580e7ff7f3e5b

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

【要点】：论文提出了一种新的同步多摄像头视频生成方法SynCamMaster，通过增强预训练的文本到视频模型，实现了开放世界视频中不同视角间的动态一致性。
【方法】：作者设计了一个即插即用的多视角同步模块，该模块能够维持多视角间外观和几何的一致性。
【实验】：研究中采用了一种混合训练方案，结合多摄像头图像、单目视频以及虚幻引擎渲染的多摄像头视频来训练模型，并发布了一个名为SynCamVideo-Dataset的多视角同步视频数据集。
【链接】：https://www.aminer.cn/pub/67590103ae8580e7ff7f3e7f