视觉大模型应该长什么样

文章讨论了视觉领域缺乏一个类似ChatGPT的通用大模型,并提出了这样的模型应具备物体识别、图像描述、画面理解、生成和有状态生成等能力。通过抽象分层、prompt方式及自监督学习,可能实现各种视觉任务的统一模型。预计此类模型可能会在不久的将来出现。
部署运行你感兴趣的模型镜像

背景

最近朋友圈一直可以看到一个论调,视觉没有一个chatgpt一样强大的模型。似乎确实如此,视觉确实是缺一个通用能力的大模型;有些小伙伴可能就会讲了数据怎么能讲没有大模型:diffusion、della、muse、sam、controlnet一堆的大模型你要什么样功能的都有。然后这是这一对的不同功能的模型,而不是一个模型覆盖全视觉能力就说明了视觉确实缺一个和chatgpt一样的语言航母级别模型。

那么如果真要造这么个视觉大模型,他应该具备什么样的能力点呢。参照LLM模型个人觉得应该这个视觉模型也是要把历史上存在的各种专用模型能力全部具备,并且有在往上的两到三层的综合能力才算。也就是这个视觉模型必须具备:

1.物体识别能力:object detector、segment

2.画面描述能力:image caption

3.画面理解能力:VQA、

4.生成能力:生成能力、图片改写能力、图片多样化能力

5.有状态生成能力:图片续生成

如果说要具备上面所有这些能力的视觉大模型,市面上确实是不存在的。但是上面的技术点的专用模型和数据集其实是有不少积累的。那么有没可能像gpt系列模型一样用一个模型把所有的能力收到一个模型里面来呢。

个人觉得是有可能的,gpt之所以能把所有能力收到一个模型,原因有四:

1.把能力做了抽象分层,每层能力通过不同训练方式激活

2.通过prompt方式把所有问题统一到一个上下文的前向生成任务

3.找到一种自监督方式让模型可以提高整体能力

4.在下游任务端,可以通过prompt方式把各种任务,统一在:条件、上下文、生成要求下生成这样统一框架

那么对比gpt,视觉大模型是否也具备把各种能力收口到统一的模型条件,个人觉得是具备的:

1.一样可以做分层:感知理解能力层,根据任务自动适配能力搭配层、适配人类需求的精细调整层

2.把图片当成和图一样的信息输入(无非就是多一些结构信息),通过prompt方式把各种能力收口,输出就是图片的信息组,装成带prompt的生成方式

3.一样可以通过图文、图图、文图抽象成信息,通过自监督方式提高各种能力

4.下游任务也是通过prompt方式把各种任务,来适配到应用

技术点

这部分会给大家介绍下现在模型需要具备的能力,一些论文的做法:

增删改:通过text的方式,来对图里面需要改增删改的地方做修改,这其实是有序列的,需要对输入的图和修改指令做增量预测。

根据输入的图片和控制条件,生成同一角色不同姿势。

通过文字方式控制下一帧动画的增量变化。

模型结构可以如下,只要增加一个上一帧图片作为输入,文本可以通过session方式来写动作变化。训练数据可以来源于:二维动画的作画、每一帧增量变化的动作画面、动作描述语言。

小结

1.从现在视觉模型,结合chatgopt的能力发现现在视模型,缺少一个和chatgpt类似的通用大模型

2.现在的视觉生成模型框架有望把各种视觉能力汇总到一个框架,发展出类似chatgpt的通用大模型

3.展望了通用视觉通用大模型需要具备什么能力

4.展望如何通过生成视觉模型框架来统一各种能力,数据和任务搞如何设置

5.对现在通用大模型能力,特别是有状态的增删改能力做了些论文小结

个人预测真正有通用能力的视觉大模型应该离我们不远了,最快明年年初应该就会出来一个类似模型。试想一下如果模型具备通过文本方式生成图、可以同一个模型用文本方式来做内容增上改,可以通过文本方式来实现内容续生成(也就是可以生成下一帧画面),可以感知画面结构通过文本方式来改变布局。如此可见现在的视觉生成大模型还只是一个专用模型,并非通用大模型。真正视觉大模型出来应该是需要具备有状态的,那么对内容的创作会有质和量的飞跃。

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

### 机器视觉大模型的学习路径 #### 学习目标 学习机器视觉大模型的目标在于理解其内部工作机制以及如何将其应用于实际场景。这不仅涉及理论知识,还包括实践技能的培养。为了实现这一目标,可以从以下几个方面入手[^3]。 #### 基础知识准备 1. **深度学习基础** 需要熟悉深度学习的核心概念,包括但不限于前馈神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等基本架构及其应用场景。此外,还需掌握梯度下降法、反向传播算法等内容[^4]。 2. **编程能力提升** Python 是目前最主流的语言之一,在处理图像数据时尤为重要。建议熟练运用 NumPy、Pandas 进行数据分析;利用 Matplotlib 或 Seaborn 绘制图表辅助观察实验结果;借助 Scikit-Learn 实现简单的分类回归任务作为过渡阶段[^2]。 #### 中级进阶课程 当具备一定基础知识之后,则可进一步深入探索更复杂的主题: 1. **计算机视觉技术概览** * 掌握 OpenCV 库操作图片文件的方法; * 熟悉 HOG 特征提取方式并尝试用于行人检测项目中; * 对 SIFT/SURF 描述子有所认识以便后续迁移至深度特征表示方法的研究之中。 2. **经典论文阅读与复现实验** - ResNet, DenseNet 等残差连接设计思路解析; - Faster R-CNN,YOLOv系列目标定位框架解读; - CycleGAN 图像风格转换原理阐述。 #### 高级专题研讨 对于希望成为专家级别的开发者而言,还需要关注前沿动态并与之接轨: 1. **自监督预训练策略研究** 自然界存在大量未标注的数据源可供挖掘潜力无限! 如何有效利用这些资源构建强大的通用表征成为了当下热点话题. 2. **跨模态融合方案探讨** 当今社会信息呈现多元化趋势明显加剧(文本+音频+视频),因此有必要思考怎样把来自不同感官渠道获取的信息综合起来形成更加全面的认知体系. ```python import torch from torchvision import models # 加载预训练的大规模ResNet模型 model = models.resnet50(pretrained=True) for param in model.parameters(): param.requires_grad = False num_ftrs = model.fc.in_features model.fc = torch.nn.Linear(num_ftrs, 2) # 修改最后一层全连接层适应二分类问题 device = 'cuda' if torch.cuda.is_available() else 'cpu' model.to(device) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值