开源项目推荐:VPD

开源项目推荐:VPD

VPD [ICCV 2023] VPD is a framework that leverages the high-level and low-level knowledge of a pre-trained text-to-image diffusion model to downstream visual perception tasks. VPD 项目地址: https://gitcode.com/gh_mirrors/vp/VPD

1. 项目基础介绍及主要编程语言

VPD(Visual Perception with Pre-trained Diffusion Models)是一个基于预训练文本到图像扩散模型的开源框架,该项目由 Wenliang Zhao、Yongming Rao、Zuyan Liu、Benlin Liu、Jie Zhou 和 Jiwen Lu 共同开发。VPD 框架利用预训练的文本到图像扩散模型的高层和低层知识,来解决下游的视觉感知任务。该项目主要使用 Python 和 Jupyter Notebook 进行编程。

2. 项目的核心功能

VPD 的核心功能包括:

  • 语义分割:通过配备轻量级的语义 FPN(Feature Pyramid Network)并在 $512\times512$ 的裁剪上进行 80K 次迭代训练,VPD 在 ADE20K 数据集上能够达到 54.6 mIoU 的性能。
  • 引用图像分割:在 RefCOCO、RefCOCO+ 和 G-Ref 数据集的验证集上,VPD 分别达到了 73.46、63.93 和 63.12 oIoU 的性能。
  • 深度估计:在 NYUv2 深度估计基准测试中,VPD 获得了 0.254 RMSE 的性能,建立了新的最佳性能。

3. 项目最近更新的功能

项目的最近更新主要包括以下功能:

  • 代码和文档的优化:为了提高可读性和易用性,项目对代码结构和文档进行了优化。
  • 性能提升:通过算法和模型的调整,进一步提升了在各个视觉感知任务上的性能。
  • 兼容性增强:确保了与其他相关开源项目(如 stable-diffusion、mmsegmentation、LAVT 和 MIM-Depth-Estimation)的兼容性,方便用户集成和使用。

以上是对 VPD 项目的简要推荐,希望对感兴趣的读者有所帮助。

VPD [ICCV 2023] VPD is a framework that leverages the high-level and low-level knowledge of a pre-trained text-to-image diffusion model to downstream visual perception tasks. VPD 项目地址: https://gitcode.com/gh_mirrors/vp/VPD

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黎连研Shana

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值