90行代码轻松实现！结合 Whisper + Stable-diffusion 的语音生成图像任务！

本文链接：https://blog.youkuaiyun.com/Jina_AI/article/details/128013000

本项目结合Whisper和Stable Diffusion模型，通过90行代码实现语音到图像的转换。借助Jina AI MLOps平台，构建了一个基于云原生微服务的Pipeline，方便部署到Kubernetes。用户输入语音，系统将其转化为文本，再生成图像。项目解决了依赖冲突、数据格式选择和模型打包等问题，提供了多模态数据处理的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本项目将 Whisper 与 Stable Diffusion 模型结合，可以直接完成语音生成图像的任务。用户可以语音输入一个短句，Whisper 会自动将语音转化为文本，接着，Stable Diffusion 会根据文本生成图像。

本项目基于 Jina AI MLOps 平台搭建，通过使用 DocArray 跨越了不同数据类型之间的鸿沟，减少了应用的数据传输成本。同时使用 Jina 搭建了一个云原生的基于微服务的 Pipeline，并且很容易就能部署到 Kubernetes 系统中。

作者：Sami Jaghouar, Alex C-G

译者：吴书凝

原文链接：jina.ai/news/speech-to-image-generation

我们都习惯了用 Siri、天猫精灵等智能语音助手来设置闹钟，播报天气，甚至它也会给我们讲一些冷笑话。但是怎样才能更进一步呢？我们怎样才能用自己的声音作为桥梁，和世界以及机器进行更加深入、有趣的交互呢？

目前的智能语音助手都是基于单模态的，即输入我们的声音会输出它们的声音，与此同时，智能语音助手还会执行我们的指令。这种单模态的工作模式就像是钢铁侠的 Mark I。虽然对于现有的任务，智能语音助手已经完成得很好了，但是随着技术的不断革新，我们期望它能有更多的创新。

将 AI 技术赋能于语音识别系统，可以使得机器生成精美的画面，这就像是为 Alexa（亚马逊旗下的智能语音助手）装配上激光炮和火箭靴。我们也可以借此实现更加复杂的应用。

不同于单模态的智能语音助手 Alexa、Siri，通过 Jina，我们将打开多模态世界[1]的大门。我们可以利用文本生成图像，语音生成视频，甚至是任何一种模态信息生成（或者检索）另一种模态信息。

与此同时，我们不需要成为钢铁侠这样的天才，甚至无需拥有浩克一样的智力，仅仅使用 90 行代码就能使魔法变为现实。我们可以利用云原生的微服务框架完成跨模态转换任务，并将其部署在 Kubernetes 上。

初步调研

过去的几年里，人工智能技术呈爆发式发展，我们的研究也从单模态模型（例如，用于文本的 Transformers，用于图像的 Big Image Transfer）迅速转向可以同时处理不同形态数据的多模态模型。

遗憾的是，即使我们的模型已经转向多模态，这也依然过时了。就在今年，我们发现文本生成图像的工具急剧增长，例如 DiscoArt[2], DALL-E 2 和 Stable Diffusion。还有一些其他的模型甚至可以完成文本生成视频，图像生成 3D 模型的任务。

Stable Diffusion 可以用来生成图像（我们已经用它生成了以下图像）：

美队骑摩托的照片

钢铁侠和Luke Skywalker跳舞的照片

Prompt：用生动的色彩，Artstation的流行趋势画一张蜘蛛侠在纽约上空飞檐走壁的4K数字插画。

现在热门的不仅是多模态的文本图像生成，就在几周前，OpenAI 发布了一个自动语音识别系统 Whisper[3]。在处理口音、背景噪声以及技术术语方面，Whisper几乎达到了人类的水准。

本文将 Whisper 与 Stable Diffusion 结合，可以直接完成语音生成图像的任务。用户可以语音输入一个短句，Whisper 会自动将语音转化为文本，接着，Stable Diffusion 会根据文本生成图像。

现有解决方案

语音生成图像并不是一个新的概念，许多学者已经写过相关的论文：

• S2IGAN: Speech-to-Image Generation via Adversarial Learning
• Direct Speech-to-Image Translation
• Using AI to Generate Art - A Voice-Enabled Art Generation Tool
• Built with AssemblyAI - Real-time Speech-to-Image Generation

与以上方案不同的是，我们的示例基于最前沿的模型，并且完全可扩展。我们的应