自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 使用批量推理提升Visualized BGE图片编码性能

本文介绍了如何通过批次推理提升Visualized-BGE模型的图片编码性能。Visualized-BGE是一个开源的多模态embedding模型,支持中文和图文联合生成embedding,可应用于多模态数据检索任务。性能测试显示,批次推理(batch size=128)相比单条推理,处理速度从50fps提升至215fps,性能提升330%。本文为开发者提供了优化Visualized-BGE图片编码性能的实用方案。

2025-03-05 11:51:17 364

原创 计算机视觉必知的7大经典数据集:从Caltech101到LVIS的演进

本文整理了计算机视觉领域7个经典公开数据集,包括Caltech101、ImageNet、CIFAR-10、PASCAL VOC、MS COCO、LVIS、Open Image,这些数据集适用于图片分类、目标检测、实例分割等任务。这些数据集各有特点,如ImageNet规模宏大,CIFAR-10专注于低分辨率图片,MS COCO注重复杂场景理解,LVIS适用于低样本学习检测。这些数据集为AI模型训练和效果评估提供了宝贵资源。

2025-02-06 15:45:26 1333

原创 利用openai/CLIP模型实现相似图片检索

CLIP是利用大量语义相同的(图片,文字)结对预训练的神经网络,由文字编码器和图片编码器组成,使二者输出的数字向量在语义空间上靠近。官网DEMO实现了zero-shot图片分类,效果与ResNet50相当。利用CLIP的图片编码器可实现相似图片检索,通过生成图片embedding并使用K临近算法查找相似向量。实际应用可用于图片查重、整理图片集及图文社区的内容推荐。CLIP短小精悍,相比其他多模态模型更显优势。

2024-11-15 20:06:26 1382 4

原创 timm 库学习总结

timm库是一个聚合了各种SOTA图像分类模型的python库,提供上千种预训练模型及权重。支持模型查询、性能评估、定制修改等功能,并包含训练/验证/推理脚本、优化器、调度器和数据增强。用户可直接使用官方脚本或编写代码进行模型训练和微调。与fastai相比,timm更底层,但二者可集成使用,从而在图像分类任务上提供更大便利。

2024-11-08 12:27:37 849

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除