数据集
文章平均质量分 91
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多任务多模态全统一!港科大&快手可灵等最新UnityVideo:生成、理解、控制多项SOTA!
UnityVideo,这是一个在单一 Diffusion Transformer 中对多种视觉模态和任务进行建模的统一框架。通过利用模态自适应学习,UnityVideo 实现了 RGB 视频与辅助模态(深度、光流、分割、骨骼和 DensePose)之间的双向学习,从而在两类任务上都实现了相互增强。本文的实验展示了其在不同基准上的最先进性能,以及对未见模态组合的强大零样本泛化能力。原创 2025-12-17 07:51:21 · 444 阅读 · 0 评论 -
AI镜头控制黑科技喜提多项SOTA!浙大&上交等发布统一多模态视频生成框架OmniCam
单图像输入无法实现相机控制基于视频生成的方法难以区分相机角度变化与主体运动。基于重建的方法通常需要多视角信息。现有方法在连续复杂操作中难以保持空间结构,导致失真。缺乏通用数据集:现有数据集(如RealEstate)缺乏多模态支持与多样化轨迹控制。交互成本高且模态受限:现有方法仅支持有限输入模态(如单一文本或视频),且控制能力不足(如长序列、复合运动)。首个多模态相机控制框架:统一文本、视频、图像输入,解决模态割裂问题。OmniTr数据集:填补多模态长序列轨迹数据的空白。6DoF长序列控制。原创 2025-04-13 10:13:45 · 1234 阅读 · 0 评论 -
是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy
解决的问题随着互联网规模的视频数据预训练的进展,文本生成视频(T2V)模型能够生成高质量的视频,涵盖各种视觉概念、合成逼真的动作以及渲染复杂的物体。然而,目前的T2V模型在生成的视频中缺乏物理常识,尤其是在模拟真实世界活动时,无法准确遵循物理法则。尽管已有一些评估视频质量的方法(如VBench),但这些方法并未特别关注生成视频的物理合法性。提出的方案VIDEOPHY,一个用于评估生成视频是否遵循物理常识的基准。原创 2025-01-05 23:15:11 · 752 阅读 · 0 评论
分享