Hugging Face 首次发布了其 Idefics 视觉语言模型,该模型于2023年首次亮相,采用了最初由 DeepMind 开发的技术。如今,Idefics 迎来了升级,新版本 Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别(OCR)能力。目前,用户可以在 Hugging Face 平台上使用 Idefics2。
01 Idefics2是什么
ldefcs2是ldefics1的升级版,共有80亿参数,许可协议为Apache 2.0,光学字符识刖(OCR)能力也得到了大幅增强。这无疑为广大开源社区从事多模态研究提供了一个强大的基础模型。值得一提的是,ldefics2已经在Hugging Face的Transformers中集成,便于开发者进行后续的细分任务微调。
Idefics 的全称是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS,是一款通用的多模态模型,可以对文本和图像提示作出响应。与前身80亿参数规模的 Idefics 相比,Idefics2的规模缩小了十倍,仅有80亿,与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相当。
除了核心功能外,Idefics2承诺提供更好的图像处理能力,支持高达980x980像素和原生长宽比的图像操作。图像无需调整大小以适应固定的正方形比例,这在传统的计算机视觉中是常见的操作。
通过整合从图像或文档中转录文本生成的数据,OCR 能力得到了增强。Hugging Face 团队还改进了 Idefics 对图表、图形和文档问题的回答能力。

02 技术的创新<

最低0.47元/天 解锁文章
734

被折叠的 条评论
为什么被折叠?



