StreamV2V：实时视频换脸重绘新突破-优快云博客

本文链接：https://blog.youkuaiyun.com/jingtian2024/article/details/143708257

前几天，AI圈子再次掀起了一股热潮，新项目StreamV2V横空出世，彻底颠覆了我们对实时视频处理的理解。

简单来说，StreamV2V是一种基于扩散模型的实时视频到视频（V2V）翻译技术。它能够根据用户提示，实时处理无限帧数的视频，实现真正的“实时换脸”效果。

与传统的V2V方法不同，StreamV2V采用了一种创新的流式处理方式。它通过维护一个特征库来存储过去帧的信息，从而对当前帧进行推理。这种“向后看”的机制使StreamV2V无需微调即可与图像扩散模型无缝集成，展现出极高的适应性和处理效率。

效果演示：

StreamV2V：实时视频换脸重绘新突破

此外，StreamV2V不仅在vid2vid任务中表现出色，还能无缝集成到txt2img应用中。相比逐图像生成的StreamDiffusion，StreamV2V能够从文本连续生成图像，确保过渡效果更加平滑自然，提升整体视觉体验。

StreamV2V的设计初衷是为了解决现有V2V方法的局限性。这些方法通常采用批处理方式处理帧，导致它们只能处理较短的视频，通常长度不超过4秒。StreamV2V通过引入流式处理的方式，突破了这一限制，实现了视频帧的实时处理，使得长视频的连续生成成为可能。

在方法上，StreamV2V通过维护一个特征库来存储中间变换器特征。对于新到来的帧，它利用扩展自注意力（Extended Self-Attention, EA）和直接特征融合（Feature Fusion, FF）这两种机制来使用存储的特征。EA将特征库中的键和值直接引入当前帧的自注意力计算中；而FF则使用余弦相似性矩阵在特征库中检索相似特征，并通过加权求和的方式融合它们，从而实现精确的特征整合。