- 博客(4)
- 收藏
- 关注
原创 使用批量推理提升Visualized BGE图片编码性能
本文介绍了如何通过批次推理提升Visualized-BGE模型的图片编码性能。Visualized-BGE是一个开源的多模态embedding模型,支持中文和图文联合生成embedding,可应用于多模态数据检索任务。性能测试显示,批次推理(batch size=128)相比单条推理,处理速度从50fps提升至215fps,性能提升330%。本文为开发者提供了优化Visualized-BGE图片编码性能的实用方案。
2025-03-05 11:51:17
364
原创 计算机视觉必知的7大经典数据集:从Caltech101到LVIS的演进
本文整理了计算机视觉领域7个经典公开数据集,包括Caltech101、ImageNet、CIFAR-10、PASCAL VOC、MS COCO、LVIS、Open Image,这些数据集适用于图片分类、目标检测、实例分割等任务。这些数据集各有特点,如ImageNet规模宏大,CIFAR-10专注于低分辨率图片,MS COCO注重复杂场景理解,LVIS适用于低样本学习检测。这些数据集为AI模型训练和效果评估提供了宝贵资源。
2025-02-06 15:45:26
1333
原创 利用openai/CLIP模型实现相似图片检索
CLIP是利用大量语义相同的(图片,文字)结对预训练的神经网络,由文字编码器和图片编码器组成,使二者输出的数字向量在语义空间上靠近。官网DEMO实现了zero-shot图片分类,效果与ResNet50相当。利用CLIP的图片编码器可实现相似图片检索,通过生成图片embedding并使用K临近算法查找相似向量。实际应用可用于图片查重、整理图片集及图文社区的内容推荐。CLIP短小精悍,相比其他多模态模型更显优势。
2024-11-15 20:06:26
1382
4
原创 timm 库学习总结
timm库是一个聚合了各种SOTA图像分类模型的python库,提供上千种预训练模型及权重。支持模型查询、性能评估、定制修改等功能,并包含训练/验证/推理脚本、优化器、调度器和数据增强。用户可直接使用官方脚本或编写代码进行模型训练和微调。与fastai相比,timm更底层,但二者可集成使用,从而在图像分类任务上提供更大便利。
2024-11-08 12:27:37
849
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人