VIT, LLM, VLM, VLA的区别

部署运行你感兴趣的模型镜像
模型模型全称技术领域输入输出应用代表
VITVition Transformer计算机视觉图像图像类别、目标框等图像分类、图像分割、目标检测等VIT, Swin Transformer
LLMLarge Language Model自然语言处理文本文本智能客服、内容创作ChatGPT, LLaMA, Deekseek, Qwen
VLMVision Language Model多模态图像+文本文本图像描述、视觉问答、多模态检索CLIP, LLaVA
VLAVision Language Action Model具身智能图像+文本动作执行机器人、机器狗、自动驾驶agent

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

### VLMVLA 在机器人学中的区别 在机器人技术领域中,视觉语言模型 (Visual Language Model, VLM) 和视觉定位映射 (Visual Localization and Mapping, VLA) 是两个不同的概念和技术方向。 #### 视觉语言模型 (VLM) 视觉语言模型是一种多模态的人工智能方法,它结合了自然语言处理和计算机视觉的能力。这种模型能够理解图像或视频的内容并将其文本描述关联起来。例如,在给定一张图片的情况下,VLM 可以生成相应的文字说明或者根据一段文字找到匹配的图像[^1]。因此,VLM 主要用于解决涉及跨模态理解和生成的任务,比如图文检索、视觉问答以及场景解释等应用。 ```python from transformers import CLIPProcessor, CLIPModel model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32") image = ... # load image here text = ["a photo of a cat", "a photo of a dog"] inputs = processor(text=text, images=image, return_tensors="pt", padding=True) outputs = model(**inputs) logits_per_image = outputs.logits_per_image # this is the image-text similarity score probs = logits_per_image.softmax(dim=1) # we can take the softmax to get probability distribution print(probs) ``` 上述代码展示了如何利用预训练好的CLIP模型来计算图像文本之间的相似度得分,这是典型的基于VLM的应用实例之一。 #### 视觉定位映射 (VLA) 相比之下,视觉定位映射更专注于让移动机器人能够在未知环境中自主导航。具体来说,VLA 技术允许机器人构建环境的地图同时估计自己的位置。这一过程通常依赖于摄像头捕捉到的数据流来进行实时更新地图信息及精确定位自身坐标系下的方位变化情况。相比起注重语义解析能力的VLM,VLA更加关注几何关系的确立及其动态调整机制等方面的工作重点有所不同。 综上所述,虽然两者都涉及到“视觉”的范畴之内,但是它们各自侧重的研究目标存在显著差异:前者致力于实现人类级别甚至超越人类水平的理解力;后者则旨在赋予机器设备独立探索复杂物理空间所需的基础技能集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值