VIT, LLM, VLM, VLA的区别

原创于 2025-10-16 11:44:48 发布 · 225 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#ai

DeepLearning 专栏收录该内容

7 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

                    
模型模型全称技术领域输入输出应用代表
VITVition Transformer计算机视觉图像图像类别、目标框等图像分类、图像分割、目标检测等VIT, Swin Transformer
LLMLarge Language Model自然语言处理文本文本智能客服、内容创作ChatGPT, LLaMA, Deekseek, Qwen
VLMVision Language Model多模态图像+文本文本图像描述、视觉问答、多模态检索CLIP, LLaVA
VLAVision Language Action Model具身智能图像+文本动作执行机器人、机器狗、自动驾驶agent

模型	模型全称	技术领域	输入	输出	应用	代表
VIT	Vition Transformer	计算机视觉	图像	图像类别、目标框等	图像分类、图像分割、目标检测等	VIT, Swin Transformer
LLM	Large Language Model	自然语言处理	文本	文本	智能客服、内容创作	ChatGPT, LLaMA, Deekseek, Qwen
VLM	Vision Language Model	多模态	图像+文本	文本	图像描述、视觉问答、多模态检索	CLIP, LLaVA
VLA	Vision Language Action Model	具身智能	图像+文本	动作执行	机器人、机器狗、自动驾驶	agent