这项由ByteDance智能创作实验室的陈卓伟、李炳川等研究人员主导的突破性研究,发表于2025年6月的arXiv平台(论文编号:arXiv:2506.18851v1),有兴趣深入了解的读者可以通过项目主页https://phantom-video.github.io/Phantom-Data/访问完整资料。研究团队历经数月努力,构建了一个包含约一百万个身份一致性配对样本的大规模数据集,专门用于解决当前AI视频生成领域最棘手的"复制粘贴"问题。
当前的AI视频生成技术就像一个过分拘谨的学生,虽然能够准确记住参考图片中人物或物体的样子,但往往连背景、姿势、甚至无关的细节都一并"照搬"过来。这就好比你想让AI生成一段某位朋友在拳击台上挥拳的视频,但因为参考照片是朋友在办公室里的样子,AI最终生成的视频可能还是在办公室环境中,完全忽略了你想要的拳击台场景。这种现象被研究人员称为"复制粘贴"问题,严重限制了AI视频生成的实用性和创造力。
传统的训练方法采用"同源配对"策略,即从同一个视频中提取参考图像和目标帧进行训练。这种方法虽然能确保身份一致性,但也不可避免地让AI学会了将身份特征与特定的背景、姿势和环境绑定在一起。研究团队敏锐地察觉到这个根本问题,提出了革命性的"跨情境配对"解决方案。他们的核心思想是让AI学会在完全不同的场景中识别和保持同一个体的身份特征,就像人类能够在不同环境中认出同一个朋友一样。
一、突破传统束缚:三阶段数据构建管道的精妙设计
研究团队设计的数据构建管道就像一个极其精密的三层筛选系统,每一层都有其独特的功能和价值。这个系统需要从超过5300万个视频片段和30亿张图像的海量数据中,精准挑选出既保持身份一致又具有丰富情境变化的配对样本。
第一阶段被称为"主体检测与定位",这个阶段的工作类似于一个经验丰富的摄影师在人群中迅速识别拍摄对象。系统首先对每个视频进行智能采样,选择开头、中间和结尾三个关键帧,避免处理整个视频带来的计算负担。接着,先进的语言模型会从视频描述中提取关键的名词短语,比如"人物"、"动物"、"产品"等,这些短语就像是寻找目标的"搜索关键词"。
随后,视觉语言模型会将这些文字描述与图像区域进行精确匹配,就像在照片中圈出对应的物体。为了确保检测质量,系统会自动过滤掉那些模糊不清或者只显示部分物体的区域,同时移除那些过小或过大的检测框。最关键的是,系统还会进行"视觉语义再检查",确保检测到的物体不仅在视觉上完整清晰,在语义上也与描述完全匹配。
第二阶段"跨情境多样化检索"是整个系统的核心创新所在。研究团队构建了一个规模庞大的检索数据库,不仅包含所有训练视频中的主体实例,还额外加入了来自LAION数据集的30亿张图像。这种设计确保了系统能够找到同一主体在截然不同环境中的表现。
针对不同类型的主体,系统采用了专门优化的特征提取策略。对于人脸识别,系统使用广泛认可的ArcFace编码器来提取稳定的身份特征。对于一般物体,系统采用在一致性图像数据集上微调的CLIP模型来获取身份保持的嵌入特征。而对于人体整体,系统会同时考虑面部特征和服装外观,通过特征拼接的方式构建更全面的身份表示。
在检索过程中,系统巧妙地设置了相似度的上下界限制。下界确保检索到的候选者确实是同一身份,而上界则防止找到过于相似的重复样本,这样既保证了身份一致性,又确保了足够的视觉多样性。
第三阶段"先验引导的身份验证"是质量控制的最后一道防线。系统会根据不同主体类型采用相应的过滤策略。对于产品等非生命物体,系统会特别关注那些具有清晰可识别商标标识的样本,因为这些标识在不同场景中通常保持一致,为身份验证提供了可靠依据。对于人物和动物等生命体,系统会限制检索范围在同一长视频的不同片段中,这样既确保了身份一致性,又自然地获得了场景和姿态的变化。</

最低0.47元/天 解锁文章
755

被折叠的 条评论
为什么被折叠?



