UniFormerV2:结合图像与视频的时空学习框架
1. 项目基础介绍及主要编程语言
UniFormerV2 是一个开源项目,旨在通过结合图像的预训练 Vision Transformer (ViT) 与视频的 UniFormer 设计,构建一个强大的视频网络家族。该项目的核心代码采用 Python 编写,遵循 Apache-2.0 开源协议,可在多个平台上进行开发和应用。
2. 项目的核心功能
UniFormerV2 的核心功能是通过创新的局部和全局关系聚合器,无缝融合 ViT 和 UniFormer 的优势,实现时空学习。它具有以下特点:
- 强大的视频识别性能:在多个流行的视频基准测试中取得了最先进的识别性能,包括与场景相关的 Kinetics-400/600/700 和 Moments in Time,与时间相关的 Something-Something V1/V2,未剪辑的 ActivityNet 和 HACS。
- 第一个在 Kinetics-400 上实现 90% top-1 准确率的模型:这一成就展示了其在视频识别领域的领先地位。
- 灵活的模型架构:继承了 UniFormer 块的简洁风格,同时引入了全新的局部和全局关系聚合器,实现了更优的精度与计算平衡。
3. 项目最近更新的功能
根据最近的项目更新,UniFormerV2 现在包含以下新功能:
- 支持 Keras:为了扩展模型的适用性,UniFormerV2 现在也支持 Keras 框架,使得更多的研究者可以方便地使用该模型。
- 集成 MMAction2:UniFormerV2 已经集成到了 MMAction2 框架中,为用户提供了一站式的视频识别解决方案,并且即将提供训练代码。
- 视频演示与博客:项目团队在 Hugging Face 上提供了视频演示,并在中文 Zhihu 上发布了相关博客,帮助用户更好地理解和应用 UniFormerV2。
通过这些更新,UniFormerV2 不仅增强了其功能和适用性,也在社区中提供了更多的学习资源和交流途径。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



