一文看懂 LLM 大模型分类

ChaITSimpleLove

于 2025-05-13 14:50:37 发布

阅读量960

点赞数 8

CC 4.0 BY-SA版权

文章标签： LLM 多模态大模型模型类型模型分类

在人工智能领域，模型类型（Model Types）通常指的是不同模态（modality）下训练和生成内容的模型。比如通常提到的 “文生图”、“文生文” 是根据输入输出模态划分的重要类别。

类型	输入	输出	常见模型	应用场景
文生文 (Text-to-Text)	文本	文本	GPT、ChatGPT、LLaMA、通义千问、T5、BERT 等	对话、摘要、翻译、问答、代码生成等
文生图 (Text-to-Image)	文本	图像	Stable Diffusion、DALL·E、Midjourney、Stable UnCLIP、国产模型如文心一格等	AI 绘画、创意设计、图像生成
图生文 (Image-to-Text)	图像	文本	CLIP + 语言模型、BLIP、Flamingo、Qwen-VL 等	图像描述、视觉问答、OCR 理解
图生图 (Image-to-Image)	图像	图像	pix2pix、CycleGAN、ControlNet、InstructPix2Pix 等	风格迁移、图像修复、草图上色
音生文 (Speech-to-Text)	音频	文本	Whisper、DeepSpeech、Wenet、达摩院Paraformer 等	语音识别、会议转录
文生音 (Text-to-Speech)	文本	音频	Tacotron、FastSpeech、Edge-TTS、CosyVoice 等	语音合成、有声读物
视频生成 (Text-to-Video)	文本	视频	Runway Gen-2、Pika、Sora（闭源）、CogVideoX、VideoLLM 等	动画制作、短视频生成
3D生成 (Text-to-3D / Image-to-3D)	文本/图像	3D模型	Luma AI、Mesh Anything、Get3D、Instant-NGP 等	游戏建模、虚拟现实资产生成

类型	开源代表	商业产品
文生文	LLaMA、Falcon、Baichuan、ChatGLM、InternLM、通义千问	GPT-4、Claude、Gemini、Ernie Bot
文生图	Stable Diffusion、SDXL、Kandinsky、Openjourney	Midjourney、DALL·E、Leonardo.Ai
图生文	BLIP、GIT、Qwen-VL、Florence	GPT-4V、Gemini Pro Vision
图生图	ControlNet、InstructPix2Pix	Adobe Firefly、RunwayML
文生音	Coqui TTS、ESPnet、Fish Speech、CosyVoice	Amazon Polly、Google Cloud TTS
音生文	Whisper、Paraformer	Azure Speech, Google Speech-to-Text

近年来发展迅速，支持多种输入输出组合，例如：

使用需求	推荐模型类型
写文章、写代码、做推理	文生文（LLM）
设计海报、AI绘画、插图生成	文生图（Diffusion）
图片转文字、看图聊天	图生文（Vision-Language Model）
根据草图生成完整图片	图生图（ControlNet / InstructPix2Pix）
将文本转为语音播报	文生音（TTS）
将语音转为会议纪要	音生文（ASR）
制作短视频或动画	文生视频（Video Diffusion / Transformer）

多模态模型（Multimodal Models）是当前人工智能领域最具前景的研究方向之一，它能够理解并生成多种类型的数据（如文本、图像、音频、视频等），突破了传统单模态模型的限制，实现了更接近人类感知和认知能力的交互方式。

特性	描述
跨模态理解	同时处理和理解不同模态信息，如“看图说话”、“听音识物”。
跨模态生成	根据一种模态输入生成另一种模态输出，如“文生图”、“图生文”。
统一表示空间	将不同模态映射到共享语义空间中，便于进行检索、匹配、推理等任务。
端到端训练	通常采用大规模预训练 + 微调的方式，在海量数据上学习通用表征。

技术	典型代表	应用场景
Vision-Language Models (VLMs)	CLIP、BLIP、Qwen-VL、Flamingo、GPT-4V	图像描述、视觉问答、图文检索
Audio-Language Models	AudioCLIP、SpeechT5、Whisper + LLM	语音理解、语音对话系统
Video-Language Models	VideoBERT、ActBERT、TimeSformer	视频摘要、动作识别、视频问答
General Multimodal Foundation Models	Gemini, Qwen-Audio, Florence, Kosmos-1	综合性 AI 助手、智能内容创作

多模态模型正在重塑多个行业：

趋势	描述
更强的泛化能力	从单一任务向通用任务迁移，支持零样本/少样本学习。
轻量化部署	模型压缩、蒸馏、量化等技术让大模型走向边缘设备。
实时交互增强	支持语音+图像+文本混合输入的实时人机交互体验。
可控生成	用户可通过指令或草图精确控制生成结果（如 InstructPix2Pix）。
伦理与安全	增强对偏见、虚假信息、隐私泄露等问题的治理能力。

如果你计划在项目中引入多模态能力，可以参考以下路径：

明确业务目标：你是需要“理解”还是“生成”？是“图文问答”还是“图文生成”？
选择合适模型：
- 理解类：CLIP、BLIP、Qwen-VL
- 生成类：Stable Diffusion + ControlNet、InstructPix2Pix、Gemini Vision
集成工具链：
- 使用 HuggingFace、Transformers、ModelScope、BotSharp、LangChain 等框架快速接入。
本地部署 or API 调用：
- 开源模型可本地部署（如 Qwen-VL）
- 商业模型可用云服务（如 Azure Cognitive Services、阿里云百炼）