大白话说大模型⑰——什么是多模态？_chatgpt 大语言模型多模态-优快云博客

本章主要解释以下2个问题：

什么是多模态？
几种多模态的场景：我发文字，大模型转语音；我发语音，大模型回复语音；我发文字，大模型回复图片；我发文字，大模型回复视频等

主要串联以下名词：暂无

**
**

在之前篇章中，我们说过可以将大模型看成是一个二次元的朋友，我们可以这个二次元大模型朋友聊天、沟通、讨论、发散大白话说大模型⑬——一图总结大模型的背后的运作机制……

几年前一炮而红的大模型产品ChatGPT横空出世的时候，也正是做成了和朋友之间的聊天交互形式的。那么我们和这个二次元朋友之间的交互，除了发文字往来，还可以像和真正朋友那样发语音、打视频、发图片么？

这个答案肯定是yes！我们将和大模型之间除了文字以外的其他交互方式，例如声音、视频、图片等，称之为“多模态”。

我发文字，大模型转成语音

第一层的应用是将文字提供给大模型，大模型转换成语音。

，时长00:11

高层次一点的应用是将文字材料提供给大模型，大模型“理解”之后，转成两人聊天讨论的形式呈现出来，这是前段时间有点小火的notebooklm支持的场景，最近它已经支持中文输出了。

，时长01:02

这老北京腔调，以及人类特有的停顿感，嗯啊的思考感觉都被狠狠🤌……不认真仔细听听，真的不容易发现这是AI生成的播客。

2. 我发语音，大模型回复语音

语音交互在早期的时候，更多的是一种“假语音”交互的形式，例如我们通过ChatGPT手机端的应用可以看到有两个按钮，左边这个，本质上是“用户输入语音之后，转写成文字”，再通过文字和大模型进行交互。

，时长00:10

在这里的这个小话筒的功能，可以用现在市面上任何一个输入法的语音转文字的功能替代，本质上还是通过文字进行交互。

到目前为止所讨论的内容可以被视为模拟音频，这本质上是一种假音频。这是因为与模型的交互仍然是通过文本进行的，尽管速度更快了，这是由于使用了语音转文字或文字转语音模型来将音频预处理成文本再转换回音频。这个过程并不是直接在语言模型内部发生的。

但是最右边的按钮是【高级语音模式】，用起来就有趣一些。

，时长00:23

在高级语音模式下，与模型的交互涉及音频 token 的来回传递，这意味着音频输入和输出可能被转换为类似文本 token 的形式供模型处理。前面解释过通过文字和模型进行交互的时候，需要将人类使用的语言转化为大模型可以识别的语言“token”，这里对于音频的处理，也是类似之前文字转成token的原理。

最近抖音上非常火的用大模型模拟自己的音色和朋友打电话的视频，就是这个能力的应用。

当然除了这种可以逗人哈哈一笑的应用以外，更令人害怕的是肯定已经有人想到用这个技术搞诈骗，所以在AI时代下，掌握AI技术进程的首要好处就是可以防诈骗。

3. 我发文字，大模型回复图片（文生图）----->我发语音，大模型回复图片（用嘴作图）

拿ChatGPT来举例，可以通过文字描述的方式让GPT根据文字描述来创造一张图片。

ChatGPT文生图背后的实质是调用了DALL-E 3。当用户提供文本提示要求生成图像时，模型会在底层为该图像创建一个文字描述（caption），然后将这个文字描述发送给一个单独的图像生成模型（在ChatGPT中指的就是DALL-E 3）来创建图像。

同样的指令，Gemini生成的🐱观感上就更真猫咪一点⬇️

Gemini生成图片的能力是整合在大模型内部的，由 Google 内部的图片生成技术提供支持。与ChatGPT背后的DALL-E不同，这些工具目前不能被单独使用，它们不是独立公开的产品。

4.我发文字，大模型回复视频（文生视频）----->我发语音，大模型回复视频（用嘴作视频）

我用Google的Generate Video工具生成的小猫咪视频，⬇️点击查看小猫咪打滚🐱😍💕

文字、语音、图片、视频之间相互转换的产品还有很多，也正是各家在这种转换之间的不断探索，才构成了现在百花齐放的大模型生态和产品。如果有好玩的产品，欢迎留言介绍。

核心概念解释（不说人话版）：

产品还有很多，也正是各家在这种转换之间的不断探索，才构成了现在百花齐放的大模型生态和产品。如果有好玩的产品，欢迎留言介绍。

核心概念解释（不说人话版）：

**“多模态”（Multimodal）：**在人工智能领域是指能够处理和整合多种不同类型数据（即“模态”）的能力。简单来说，人类通过视觉、听觉、嗅觉、触觉等多种感官来感知和理解世界，而多模态AI就是模仿这种能力，让AI系统也能同时处理和理解来自不同“感官”的信息。

大模型岗位需求

大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用