冲一个年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩

AI程序猿人

于 2024-07-05 14:51:35 发布

阅读量1.1k

点赞数 29

CC 4.0 BY-SA版权

文章标签：人工智能 ai大模型多模态大模型大语言模型产品经理 LLM 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/python1222_/article/details/140208874

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了！

模型大小不到2B，消费级显卡可训练，GTX1080ti 8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式？以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令：

无论中英文，图片中的大段文字都能分分钟提取出来：

对一张图做对象检测，还是能给出具体坐标的那种：

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍，Vary-toy虽小，但却几乎涵盖了目前LVLM（大型视觉语言模型）主流研究中的所有能力：文档OCR识别（Document OCR）、视觉定位（Visual Grounding）、图像描述（Image Caption）、视觉问答（VQA）。

现在，Vary-toy代码和模型均已开源，并有在线demo可试玩。

网友一边表示感兴趣，一边关注点在于旧·GTX1080，心情belike：

“缩小版”Vary

其实，早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足，并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注，目前Github1.2k+ star，但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少，于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比，Vary-toy除了小之外，也训练了更强的视觉词表，新的词表不再将模型局限于文档级OCR，而是给出了一个更加通用和全面的视觉词表，其不仅能做文档级OCR，还能做通用视觉目标检测。

那这究竟是如何做到的？

Vary-toy的模型结构和训练流程如下图所示，总的来说，训练共分两个阶段。

首先在第一阶段，使用Vary-tiny+结构，预训练出一个相比原版Vary更好的视觉词表，新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中，将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知，一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段，Vary-toy使用了5种任务类型的数据构建对话，数据配比和示例prompt如下图所示：

而在SFT阶段，只使用了LLaVA-80K数据。更多的技术细节，可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下：

Vary-toy在DocVQA上可以达到 65.6%的ANLS，在ChartQA上达到59.1%的准确率，RefCOCO88.1%的准确率：

MMVet上可以达到29%准确率，无论是从基准测试评分上还是可视化效果上，不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接：
[1]https://arxiv.org/abs/2401.12503
[3]https://varytoy.github.io/

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。