开源项目推荐:VPD
1. 项目基础介绍及主要编程语言
VPD(Visual Perception with Pre-trained Diffusion Models)是一个基于预训练文本到图像扩散模型的开源框架,该项目由 Wenliang Zhao、Yongming Rao、Zuyan Liu、Benlin Liu、Jie Zhou 和 Jiwen Lu 共同开发。VPD 框架利用预训练的文本到图像扩散模型的高层和低层知识,来解决下游的视觉感知任务。该项目主要使用 Python 和 Jupyter Notebook 进行编程。
2. 项目的核心功能
VPD 的核心功能包括:
- 语义分割:通过配备轻量级的语义 FPN(Feature Pyramid Network)并在 $512\times512$ 的裁剪上进行 80K 次迭代训练,VPD 在 ADE20K 数据集上能够达到 54.6 mIoU 的性能。
- 引用图像分割:在 RefCOCO、RefCOCO+ 和 G-Ref 数据集的验证集上,VPD 分别达到了 73.46、63.93 和 63.12 oIoU 的性能。
- 深度估计:在 NYUv2 深度估计基准测试中,VPD 获得了 0.254 RMSE 的性能,建立了新的最佳性能。
3. 项目最近更新的功能
项目的最近更新主要包括以下功能:
- 代码和文档的优化:为了提高可读性和易用性,项目对代码结构和文档进行了优化。
- 性能提升:通过算法和模型的调整,进一步提升了在各个视觉感知任务上的性能。
- 兼容性增强:确保了与其他相关开源项目(如 stable-diffusion、mmsegmentation、LAVT 和 MIM-Depth-Estimation)的兼容性,方便用户集成和使用。
以上是对 VPD 项目的简要推荐,希望对感兴趣的读者有所帮助。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考