GRiT:一款开源的生成区域到文本转换器
1. 项目基础介绍
GRiT(Generative Region-to-text Transformer)是一个开源项目,由纽约州立大学水牛城和微软的研究者们共同开发。该项目的主要编程语言为Python。
2. 项目核心功能
GRiT 是一个通用的、开放集的对象理解框架,能够定位对象并以任意风格的自由文本形式描述它们,这些文本可以是类名、描述性句子(包括对象属性、动作、数量等等)。其主要功能包括:
- 对象检测:能够识别并定位图像中的对象。
- 密集字幕生成:为图像中的每个对象生成丰富的描述性句子。
3. 项目最近更新的功能
根据项目最近的更新,以下是一些新增功能:
- 集成了DeepSpeed:为了节省训练内存,项目集成了DeepSpeed,这在分布式训练中的激活检查点功能表现良好。
- 改进了模型性能:在COCO 2017数据集上的对象检测性能得到了提升,ViT-B模型达到了53.7的AP,而ViT-L和ViT-H模型分别达到了56.4和60.4的AP。
- 增加了新的数据集支持:在VG数据集上的密集字幕生成了新的结果,ViT-B模型达到了15.5的mAP。
- 提供了更多配置选项:用户可以根据需求调整配置文件,以实现不同的训练和测试目的。
以上是对GRiT项目的简要介绍,该项目为开源技术社区提供了一个强大的工具,适用于多种对象理解任务。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考