ML-Decoder: 一个 scalable 和 versatile 的分类头实现

ML-Decoder: 一个 scalable 和 versatile 的分类头实现

ML-Decoder 是一个由阿里巴巴 DAMO 学院提出并实现的分类头,它基于 attention 机制,用于图像分类任务。该项目使用 Python 作为主要的编程语言。

核心功能

ML-Decoder 的核心功能是通过 queries 预测类标签的存在,与全局平均池化相比,它能更好地利用空间数据。通过重新设计解码器架构并使用一种新颖的 group-decoding 策略,ML-Decoder 实现了高效率,并且可以很好地扩展到数千个类别。与使用更大的骨干网络相比,ML-Decoder 在速度和准确性之间提供了更好的权衡,并且可以作为各种分类头的即插即用替代品。当与 word queries 一起使用时,它还可以泛化到未见过的类别。

最近更新的功能

最近项目的更新主要集中在性能优化和功能的扩展上。以下是一些主要的更新内容:

  • 性能优化:通过改进算法和代码,提高了模型的运行效率和准确性。
  • 扩展性增强:增加了新的训练代码和示例,使得 ML-Decoder 可以更容易地集成到不同的 backbone 中。
  • 支持更多数据集:项目增加了对更多数据集的支持,如 MS-COCO multi-label、NUS-WIDE zero-shot 和 ImageNet single-label 等。
  • 新的实验结果:在 Stanford-Cars 和 CIFAR-100 数据集上取得了顶尖的性能结果。

这些更新使得 ML-Decoder 变得更加完善和强大,为开源社区提供了有力工具。

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值