
人工智能
文章平均质量分 95
无
业余狙击手19
图像算法菜鸟,点滴积累成就硕果累累。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多模态大模型:视觉模型与LLM的结合之路二:MiniGPT-4、QWen-VL
QWenVL提出来能力增强的训练阶段,并使用了B级别的对齐训练数据,M级别的能力增强数据和K级别的指令跟随数据,训练多模态大模型。能力增强训练可能较为耗费资源但能极大程度提升模型效果。后续自己构建大模型时可以考虑构建和下游任务接近的训练任务用于能力增强训练。原创 2025-08-21 21:30:00 · 526 阅读 · 0 评论 -
多模态大模型:视觉模型与LLM的结合之路一:Blip2、LLaVA
模型结构上:LLaVA仅用简单的线性链接层就完成了视觉模型与LLM的结合,结合方法简单但有效。训练数据上:LLaVA给出了一种使用ChatGPT造训练数据的方法。虽然类似的方法在语言大模型的训练中较为常见,但该文是在多模态大模型上的首次尝试。训练方法上:作者先采用了大量的易学数据训练少量参数让模型学会认图,再用少量难学的数据训练大量参数让模型学会基于图像的多轮对话和逻辑推理能力。原创 2025-08-21 21:30:00 · 1002 阅读 · 0 评论 -
TAP:对任何事物进行分割、识别和描述
TAP旨在通过提示功能,从分割任意物体迈向感知任意事物。我们希望这项工作能够启发学界开发出更紧凑、更有意义的视觉基础模型。原创 2025-08-20 21:30:00 · 481 阅读 · 0 评论 -
识别一切-RAM-Recognize Anything(论文翻译)
我们提出了用于图像标注的强大基础模型 —— 识别万物模型(RAM),它开创了该领域的一种全新范式。RAM展现出了以高准确率识别任意类别的零次学习能力,超越了全监督模型以及诸如 CLIP 和 BLIP 等现有通用型方法的性能表现。RAM代表了计算机视觉领域大规模模型的一项重大进步,具备增强任何视觉任务或数据集识别能力的潜力。原创 2025-08-20 21:30:00 · 578 阅读 · 0 评论 -
SEEM-Segment Everything Everywhere All at Once(论文翻译)
Segment Everything Everywhere All at Once(SEEM)[NeurIPS 2023] 是一个创新的开源项目,旨在实现对图像和视频中的对象进行高效且精确的分割。该项目由UX-Decoder团队开发,支持多种提示类型,包括点、标记、框、涂鸦、图像片段、文本和音频等,用户可以通过这些提示轻松地对图像进行分割,并且可以组合使用多种提示类型。原创 2025-08-19 21:30:00 · 709 阅读 · 0 评论 -
首个目标检测大模型(识别万物):DINO-X(论文翻译)
DINO-X,2024年11月20号IDEA Research 开发的具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。为了使长尾物体检测变得简单,DINO-X 扩展了其输入选项以支持文本提示、视觉提示和自定义提示。原创 2025-08-18 21:30:00 · 820 阅读 · 0 评论