ML-Decoder: 一个 scalable 和 versatile 的分类头实现
ML-Decoder 是一个由阿里巴巴 DAMO 学院提出并实现的分类头,它基于 attention 机制,用于图像分类任务。该项目使用 Python 作为主要的编程语言。
核心功能
ML-Decoder 的核心功能是通过 queries 预测类标签的存在,与全局平均池化相比,它能更好地利用空间数据。通过重新设计解码器架构并使用一种新颖的 group-decoding 策略,ML-Decoder 实现了高效率,并且可以很好地扩展到数千个类别。与使用更大的骨干网络相比,ML-Decoder 在速度和准确性之间提供了更好的权衡,并且可以作为各种分类头的即插即用替代品。当与 word queries 一起使用时,它还可以泛化到未见过的类别。
最近更新的功能
最近项目的更新主要集中在性能优化和功能的扩展上。以下是一些主要的更新内容:
- 性能优化:通过改进算法和代码,提高了模型的运行效率和准确性。
- 扩展性增强:增加了新的训练代码和示例,使得 ML-Decoder 可以更容易地集成到不同的 backbone 中。
- 支持更多数据集:项目增加了对更多数据集的支持,如 MS-COCO multi-label、NUS-WIDE zero-shot 和 ImageNet single-label 等。
- 新的实验结果:在 Stanford-Cars 和 CIFAR-100 数据集上取得了顶尖的性能结果。
这些更新使得 ML-Decoder 变得更加完善和强大,为开源社区提供了有力工具。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



