骑摩托的江老师-优快云博客

原创使用批量推理提升Visualized BGE图片编码性能

本文介绍了如何通过批次推理提升Visualized-BGE模型的图片编码性能。Visualized-BGE是一个开源的多模态embedding模型，支持中文和图文联合生成embedding，可应用于多模态数据检索任务。性能测试显示，批次推理（batch size=128）相比单条推理，处理速度从50fps提升至215fps，性能提升330%。本文为开发者提供了优化Visualized-BGE图片编码性能的实用方案。

2025-03-05 11:51:17 364

原创计算机视觉必知的7大经典数据集：从Caltech101到LVIS的演进

本文整理了计算机视觉领域7个经典公开数据集，包括Caltech101、ImageNet、CIFAR-10、PASCAL VOC、MS COCO、LVIS、Open Image，这些数据集适用于图片分类、目标检测、实例分割等任务。这些数据集各有特点，如ImageNet规模宏大，CIFAR-10专注于低分辨率图片，MS COCO注重复杂场景理解，LVIS适用于低样本学习检测。这些数据集为AI模型训练和效果评估提供了宝贵资源。

2025-02-06 15:45:26 1333

原创利用openai/CLIP模型实现相似图片检索

CLIP是利用大量语义相同的(图片，文字)结对预训练的神经网络，由文字编码器和图片编码器组成，使二者输出的数字向量在语义空间上靠近。官网DEMO实现了zero-shot图片分类，效果与ResNet50相当。利用CLIP的图片编码器可实现相似图片检索，通过生成图片embedding并使用K临近算法查找相似向量。实际应用可用于图片查重、整理图片集及图文社区的内容推荐。CLIP短小精悍，相比其他多模态模型更显优势。

2024-11-15 20:06:26 1382 4

原创 timm 库学习总结

timm库是一个聚合了各种SOTA图像分类模型的python库，提供上千种预训练模型及权重。支持模型查询、性能评估、定制修改等功能，并包含训练/验证/推理脚本、优化器、调度器和数据增强。用户可直接使用官方脚本或编写代码进行模型训练和微调。与fastai相比，timm更底层，但二者可集成使用，从而在图像分类任务上提供更大便利。

2024-11-08 12:27:37 849

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 使用批量推理提升Visualized BGE图片编码性能

原创 计算机视觉必知的7大经典数据集：从Caltech101到LVIS的演进

原创 利用openai/CLIP模型实现相似图片检索

原创 timm 库学习总结

空空如也

空空如也

原创使用批量推理提升Visualized BGE图片编码性能

原创计算机视觉必知的7大经典数据集：从Caltech101到LVIS的演进

原创利用openai/CLIP模型实现相似图片检索