强大的8B 视觉语言模型｜Idefics2介绍

最新推荐文章于 2025-07-25 16:21:45 发布

原创

最新推荐文章于 2025-07-25 16:21:45 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型

Hugging Face 首次发布了其 Idefics 视觉语言模型，该模型于2023年首次亮相，采用了最初由 DeepMind 开发的技术。如今，Idefics 迎来了升级，新版本 Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别（OCR）能力。目前，用户可以在 Hugging Face 平台上使用 Idefics2。

01 Idefics2是什么

ldefcs2是ldefics1的升级版，共有80亿参数，许可协议为Apache 2.0，光学字符识刖(OCR)能力也得到了大幅增强。这无疑为广大开源社区从事多模态研究提供了一个强大的基础模型。值得一提的是，ldefics2已经在Hugging Face的Transformers中集成，便于开发者进行后续的细分任务微调。

Idefics 的全称是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS，是一款通用的多模态模型，可以对文本和图像提示作出响应。与前身80亿参数规模的 Idefics 相比，Idefics2的规模缩小了十倍，仅有80亿，与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相当。

除了核心功能外，Idefics2承诺提供更好的图像处理能力，支持高达980x980像素和原生长宽比的图像操作。图像无需调整大小以适应固定的正方形比例，这在传统的计算机视觉中是常见的操作。

通过整合从图像或文档中转录文本生成的数据，OCR 能力得到了增强。Hugging Face 团队还改进了 Idefics 对图表、图形和文档问题的回答能力。