华为云Flexus+DeepSeek征文 | 基于Dify构建AI 图片生成应用

最新推荐文章于 2025-08-05 12:38:07 发布

Just_Paranoid

最新推荐文章于 2025-08-05 12:38:07 发布

阅读量751

点赞数 13

CC 4.0 BY-SA版权

分类专栏： AIGC 文章标签：华为云 DeepSeek FlexusX MaaS Dify 图片生成

本文链接：https://blog.youkuaiyun.com/weixin_44008788/article/details/148626321

AIGC 专栏收录该内容

34 篇文章

订阅专栏

华为云Flexus+DeepSeek征文 | 基于Dify构建AI 图片生成应用

一、构建AI 图片生成应用引言
二、构建AI 图片生成应用环境
- 2.1 基于FlexusX实例的Dify平台
- 2.2 基于MaaS的模型API商用服务
三、构建AI 图片生成应用实战
四、总结

一、构建AI 图片生成应用引言

生成式AI技术的突破正重塑视觉内容创作方式。通过扩散模型、GAN等深度学习技术，AI图片生成应用将文字描述转化为高质量图像，大幅降低艺术创作与设计门槛。其意义在于：赋能非专业用户，实现“所想即所得”的创意表达；革新行业生产力，为广告、游戏、电商等领域提供高效、低成本的视觉解决方案
；拓展艺术边界，激发人类与AI协作的无限可能性。

华为云Flexus X云服务器与DeepSeek模型的组合优势显著：Flexus X提供柔性算力（支持CPU/内存自定义配比）和X-Turbo加速引擎，实现1.6倍同规格实例性能，同时通过智能动态业务画像降低30%成本；DeepSeek模型则凭借混合专家架构和开源策略，以极低训练成本（仅600万美元）达到媲美GPT-4o的性能，并支持高效多语言处理。两者结合为AI应用提供高性能、低延迟、高性价比的解决方案。

在这里插入图片描述

二、构建AI 图片生成应用环境

2.1 基于FlexusX实例的Dify平台

华为云FlexusX实例提供高性价比的云服务器，按需选择资源规格、支持自动扩展，减少资源闲置，优化成本投入，并且首创大模型QoS保障，智能全域调度，算力分配长稳态运行，一直加速一直快，用于搭建Dify-LLM应用开发平台。

Dify是一个能力丰富的开源AI应用开发平台，为大型语言模型（LLM）应用的开发而设计。它巧妙地结合了后端即服务（Backend as Service）和LLMOps的理念，提供了一套易用的界面和API，加速了开发者构建可扩展的生成式AI应用的过程。

参考：华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程

2.2 基于MaaS的模型API商用服务

MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务，支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。

参考：华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程

在这里插入图片描述

三、构建AI 图片生成应用实战

3.1 配置Dify环境

输入管理员的邮箱和密码，登录基于FlexusX部署好的Dify网站

在这里插入图片描述

将MaaS平台的模型服务接入Dify，这里我们选择的是DeepSeek R1商用服务，需要记住调用说明中的接口信息和 API Key 管理中API Key，若没有可以重新创建即可

在这里插入图片描述

配置Dify模型供应商：设置 - 模型供应商 - 找到OpenAI-API-compatible供应商并单击添加模型，在添加 OpenAI-API-compatible对话框，配置相关参数，然后单击保存

在这里插入图片描述

参数	说明
模型类型	选择`LLM`。
模型名称	填入模型名称。
API Key	填入创建的API Key。
API Endpoint URL	填入获取的MaaS服务的基础API地址，需要去掉地址尾部的“/chat/completions”后填入

3.2 配置Dify工具

Stability AI

随着图像生成技术的兴起，涌现了许多优秀的图像生成产品，比如 Dall-e、Flux、Stable Diffusion 等，我们这里使用 Stability AI 的生成图片的能力。

Stability 提供了一套专注于生成媒体的 AI 工具和模型。它提供了从文本提示或其他输入创建图像、音频和视频内容的功能。该套件包括各种生成模型，专门用于不同的艺术风格和媒体类型。

我们可以在 Stability AI API Key 密钥管理页中查看密钥，如果第一次使用输出邮箱和密码进行注册即可，需要邮箱验证。进入管理页后，点击复制密钥即可。
在这里插入图片描述

注意这个是一个付费的工具，提供的有一个免费的使用额度为 25 Credits

在这里插入图片描述

在 Dify - 工具中搜索 stability 插件，进行安装

在这里插入图片描述

安装完成后，点击去授权，填入刚刚复制的 API key，点击保存即可

在这里插入图片描述

显示已授权，后面就可以调用此工具进行绘图输出了

在这里插入图片描述

3.3 创建AI 图片生成应用

在 Dify - 工作室，创建空白应用，选择 Agent，输入应用名称和图标，点击创建

Agent 是一种模拟人类行为和能力的 AI 系统，它通过自然语言处理与环境交互，能够理解输入信息并生成相应的输出。Agent 还具有 “感知” 能力，可以处理和分析各种形式的数据。此外，Agent 能够调用和使用各种外部工具和 API 来完成任务，扩展其功能范围。这种设计使 Agent 能够更灵活地应对复杂情况，在一定程度上模拟人类的思考和行为模式。因此，很多人都会将 Agent 称为“智能体”。

在这里插入图片描述

模型是默认配置的由华为云MaaS提供的DeepSeek R1，添加工具：stability - 稳定扩散 并启用

stability_text2image：工具调用名称，用于 Agent 推理和提示词

在这里插入图片描述

撰写提示词：根据用户的提示，使用工具 stability_text2image 绘画指定内容

提示词（Prompt是 Agent 的灵魂，直接影响到输出的效果。通常来说越具体的提示词输出的效果越好，但是过冗长的提示词也会导致一些负面效果。
调整提示词的工程，我们称之为提示词工程（Prompt Engineering）。

在这里插入图片描述

用户每次输入命令的时候，Agent 都会知晓这样的系统级的指令，从而了解要执行用户绘画的任务的时候需要调用一个叫 stability_text2image 的工具。

例如：画一个Hello Kitty带着围巾在雪中跳舞

在这里插入图片描述

在经过DeepSeek的根据用户描述分析重新生成更更具体的提示词给 stability_text2image 工具

在这里插入图片描述

虽然但是这只HelloKitty有点丑

在这里插入图片描述

消耗 4 个 Credits，可用的机会不多了

在这里插入图片描述

通过提示词生成器生成提示词并应用：一个用于生成图片的机器人

在这里插入图片描述

应用后重新编排，新增变量，用于用户填写

在这里插入图片描述

再次测试，输入相关变量，并在对话中输入相同的指令

在这里插入图片描述

通过 DeepSeek 生成的提示词给到 stability_text2image 工具的请求如下

{
  "stability_text2image": {
    "prompt": "Hello Kitty wearing a red scarf dancing joyfully in snow-covered landscape, snowflakes falling, winter atmosphere, bright colors, anime style, white and red color scheme, dynamic pose, cartoonish proportions, kawaii aesthetic",
    "model": "sd3-turbo",
    "negative_prompt": "bad art, ugly, deformed, watermark, duplicated, discontinuous lines",
    "seeds": 0,
    "aspect_ratio": "16:9"
  }
}

在这里插入图片描述

主体的Hello Kitty样子还是很丑，不那么可爱，还需要多多修改提示词

在这里插入图片描述

需要注意输入到 stability_text2image 工具的提示词需要是英文，否则会出现调用报错
{“stability_text2image”: “tool invoke error: PluginInvokeError: {“args”:{},“error_type”:“Exception”,“message”:”{\“errors\”:[\“English is the only supported language for this service.\”],\“id\”:\“138b433ef0fd22160e641c8ede6eb4ed\”,\“name\”:\“invalid_language\”}“}”}

其他补充扩展内容：在添加功能 - 内容审查中添加关键词，如敏感词，当用户输入关键词时，则 Agent 应用输出 “对不起，我不明白你在说什么”。在一些更正式的业务场景中，我们可以调用敏感词库来拒绝用户的请求。

也可以写在系统提示词中，添加约束

## 约束
如果用户在请求和绘画无关的内容，回复：“对不起，我不明白你在说什么”

在这里插入图片描述

测试完成就可以发布更新到探索页面了，发布后选择运行就可以获得一个在线运行的 Agent 的网页！

3.4 使用AI 图片生成应用

在探索 - 图片生成器中开启新对话，填入相关参数

在这里插入图片描述

点击开始对话，并输入：画出一个超帅的犬夜叉人物

在这里插入图片描述

等待 DeepSeek 解析需求后，生成提示词喂给工具，还可以多次提出修改要求

在这里插入图片描述

输出到 stability 工具的请求数据如下：

{
  "stability_text2image": {
    "prompt": "Inuyasha, dynamic anime style, half-demon with silver hair and dog ears, wearing signature red haori over white kimono, fierce expression, glowing Tessaiga sword partially unsheathed, running through moonlit primal forest with towering ancient trees, glowing blue shards of Shikon no Tama necklace visible, crimson and white color accents, dramatic moonlight casting long shadows, misty atmosphere, ultra-detailed character design with flowing hair and fabric movement, epic action pose",
    "model": "sd3-turbo",
    "negative_prompt": "bad art, ugly, deformed, watermark, duplicated, discontinuous lines",
    "seeds": 0,
    "aspect_ratio": "16:9"
  }
}

生成的犬夜叉如下，只能说形似而已，过度的动漫画，和电视剧形象差很多，系统提示词需要更加具体

在这里插入图片描述

在测试 6 轮后还剩余 5 Credits

在这里插入图片描述

四、总结

使用Dify搭建AI图片生成Agent的体验既高效又充满探索乐趣。其低代码可视化界面让非技术用户也能快速构建应用，通过简单的拖拽和提示词配置即可调用Stability AI等模型生成图像。但过程中也需注意API密钥管理、模型选择及提示词优化等细节。整体而言，Dify将复杂的AI开发简化为模块化操作，既降低了门槛，又保留了灵活定制的空间，是快速验证AI创意的理想平台。

华为云FlexusX服务器基于客户业务负载进行动态性能画像，智能推荐资源规格，持续优化性能和成本，提供与华为云旗舰级云服务器产品相同的单AZ 99.975%可用性，跨AZ 99.995%可用性。MaaS基于多个优质昇腾云开源大模型，提供优质Prompt模板，让大模型准确理解业务意图，分解复杂任务，沉淀出丰富的多个智能Agent，帮助企业快速智能构建和部署大模型应用。