华为云Flexus+DeepSeek征文 | 基于Dify构建AI 图片生成应用
一、构建AI 图片生成应用引言
生成式AI技术的突破正重塑视觉内容创作方式。通过扩散模型
、GAN
等深度学习技术,AI图片生成应用将文字描述转化为高质量图像,大幅降低艺术创作与设计门槛。其意义在于:赋能非专业用户,实现“所想即所得”的创意表达;革新行业生产力,为广告、游戏、电商等领域提供高效、低成本的视觉解决方案
;拓展艺术边界,激发人类与AI协作的无限可能性。
华为云Flexus X云服务器
与DeepSeek模型的组合优势显著:Flexus X提供柔性算力(支持CPU/内存自定义配比)和X-Turbo加速引擎,实现1.6倍同规格实例性能,同时通过智能动态业务画像降低30%成本;DeepSeek模型则凭借混合专家架构和开源策略,以极低训练成本(仅600万美元)达到媲美GPT-4o的性能,并支持高效多语言处理。两者结合为AI应用提供高性能、低延迟、高性价比的解决方案。
二、构建AI 图片生成应用环境
2.1 基于FlexusX实例的Dify平台
华为云FlexusX实例
提供高性价比的云服务器,按需选择资源规格、支持自动扩展,减少资源闲置,优化成本投入,并且首创大模型QoS保障,智能全域调度,算力分配长稳态运行,一直加速一直快,用于搭建Dify-LLM应用开发平台。
Dify是一个能力丰富的开源AI应用开发平台
,为大型语言模型(LLM)应用的开发而设计。它巧妙地结合了后端即服务(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了开发者构建可扩展的生成式AI应用的过程。
参考:华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程
2.2 基于MaaS的模型API商用服务
MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。
参考:华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程
三、构建AI 图片生成应用实战
3.1 配置Dify环境
输入管理员的邮箱和密码,登录基于FlexusX部署好的Dify网站
将MaaS平台的模型服务接入Dify,这里我们选择的是DeepSeek R1商用服务
,需要记住调用说明中的接口信息
和 API Key 管理中API Key
,若没有可以重新创建即可
配置Dify模型供应商:设置 - 模型供应商 - 找到OpenAI-API-compatible
供应商并单击添加模型
,在添加 OpenAI-API-compatible对话框,配置相关参数,然后单击保存
参数 | 说明 |
---|---|
模型类型 | 选择LLM 。 |
模型名称 | 填入模型名称。 |
API Key | 填入创建的API Key。 |
API Endpoint URL | 填入获取的MaaS服务的基础API地址,需要去掉地址尾部的“/chat/completions”后填入 |
3.2 配置Dify工具
Stability AI
随着图像生成技术的兴起,涌现了许多优秀的图像生成产品,比如 Dall-e
、Flux
、Stable Diffusion
等,我们这里使用 Stability AI
的生成图片的能力。
Stability 提供了一套专注于生成媒体的 AI 工具和模型。它提供了从文本提示或其他输入创建图像、音频和视频内容的功能。该套件包括各种生成模型,专门用于不同的艺术风格和媒体类型。
我们可以在 Stability AI API Key 密钥管理页 中查看密钥,如果第一次使用输出邮箱和密码进行注册即可,需要邮箱验证。进入管理页后,点击复制密钥即可。
注意这个是一个付费的工具,提供的有一个免费的使用额度为 25 Credits
在 Dify - 工具中搜索 stability 插件,进行安装
安装完成后,点击去授权
,填入刚刚复制的 API key,点击保存即可
显示已授权,后面就可以调用此工具进行绘图输出了
3.3 创建AI 图片生成应用
在 Dify - 工作室,创建空白应用,选择 Agent,输入应用名称和图标,点击创建
Agent
是一种模拟人类行为和能力的 AI 系统,它通过自然语言处理与环境交互,能够理解输入信息并生成相应的输出。Agent 还具有 “感知” 能力,可以处理和分析各种形式的数据。此外,Agent 能够调用和使用各种外部工具和 API 来完成任务,扩展其功能范围。这种设计使 Agent 能够更灵活地应对复杂情况,在一定程度上模拟人类的思考和行为模式。 因此,很多人都会将 Agent 称为“智能体
”。
模型
是默认配置的由华为云MaaS提供的DeepSeek R1
,添加工具
:stability - 稳定扩散
并启用
stability_text2image:工具调用名称,用于 Agent 推理和提示词
撰写提示词:根据用户的提示,使用工具 stability_text2image 绘画指定内容
提示词(Prompt
是 Agent 的灵魂,直接影响到输出的效果。通常来说越具体的提示词输出的效果越好,但是过冗长的提示词也会导致一些负面效果。- 调整提示词的工程,我们称之为
提示词工程(Prompt Engineering)
。
用户每次输入命令的时候,Agent 都会知晓这样的系统级的指令,从而了解要执行用户绘画的任务的时候需要调用一个叫 stability_text2image 的工具。
例如:画一个Hello Kitty带着围巾在雪中跳舞
在经过DeepSeek的根据用户描述分析重新生成更更具体的提示词给 stability_text2image 工具
虽然但是这只HelloKitty有点丑
消耗 4 个 Credits,可用的机会不多了
通过提示词生成器
生成提示词并应用:一个用于生成图片的机器人
应用后重新编排,新增变量,用于用户填写
再次测试,输入相关变量,并在对话中输入相同的指令
通过 DeepSeek 生成的提示词给到 stability_text2image 工具的请求如下
{
"stability_text2image": {
"prompt": "Hello Kitty wearing a red scarf dancing joyfully in snow-covered landscape, snowflakes falling, winter atmosphere, bright colors, anime style, white and red color scheme, dynamic pose, cartoonish proportions, kawaii aesthetic",
"model": "sd3-turbo",
"negative_prompt": "bad art, ugly, deformed, watermark, duplicated, discontinuous lines",
"seeds": 0,
"aspect_ratio": "16:9"
}
}
主体的Hello Kitty样子还是很丑,不那么可爱,还需要多多修改提示词
需要注意输入到 stability_text2image 工具的提示词需要是英文,否则会出现调用报错
{“stability_text2image”: “tool invoke error: PluginInvokeError: {“args”:{},“error_type”:“Exception”,“message”:”{\“errors\”:[\“English is the only supported language for this service
.\”],\“id\”:\“138b433ef0fd22160e641c8ede6eb4ed\”,\“name\”:\“invalid_language\”}“}”}
其他补充扩展内容 :在添加功能 - 内容审查中添加关键词,如敏感词,当用户输入关键词时,则 Agent 应用输出 “对不起,我不明白你在说什么”。在一些更正式的业务场景中,我们可以调用敏感词库来拒绝用户的请求。
也可以写在系统提示词中,添加约束
## 约束
如果用户在请求和绘画无关的内容,回复:“对不起,我不明白你在说什么”
测试完成就可以发布更新到探索
页面了,发布后选择运行就可以获得一个在线运行的 Agent 的网页!
3.4 使用AI 图片生成应用
在探索 - 图片生成器中开启新对话,填入相关参数
点击开始对话,并输入:画出一个超帅的犬夜叉人物
等待 DeepSeek 解析需求后,生成提示词喂给工具,还可以多次提出修改要求
输出到 stability 工具的请求数据如下:
{
"stability_text2image": {
"prompt": "Inuyasha, dynamic anime style, half-demon with silver hair and dog ears, wearing signature red haori over white kimono, fierce expression, glowing Tessaiga sword partially unsheathed, running through moonlit primal forest with towering ancient trees, glowing blue shards of Shikon no Tama necklace visible, crimson and white color accents, dramatic moonlight casting long shadows, misty atmosphere, ultra-detailed character design with flowing hair and fabric movement, epic action pose",
"model": "sd3-turbo",
"negative_prompt": "bad art, ugly, deformed, watermark, duplicated, discontinuous lines",
"seeds": 0,
"aspect_ratio": "16:9"
}
}
生成的犬夜叉如下,只能说形似而已,过度的动漫画,和电视剧形象差很多,系统提示词需要更加具体
在测试 6 轮后还剩余 5 Credits
四、总结
使用Dify搭建AI图片生成Agent的体验既高效又充满探索乐趣。其低代码可视化界面让非技术用户也能快速构建应用,通过简单的拖拽和提示词配置即可调用Stability AI等模型生成图像。但过程中也需注意API密钥管理
、模型选择
及提示词优化
等细节。整体而言,Dify
将复杂的AI开发简化为模块化操作,既降低了门槛,又保留了灵活定制的空间,是快速验证AI创意的理想平台。
华为云FlexusX服务器
基于客户业务负载进行动态性能画像,智能推荐资源规格,持续优化性能和成本,提供与华为云旗舰级云服务器产品相同的单AZ 99.975%可用性,跨AZ 99.995%可用性。MaaS
基于多个优质昇腾云开源大模型,提供优质Prompt模板,让大模型准确理解业务意图,分解复杂任务,沉淀出丰富的多个智能Agent,帮助企业快速智能构建和部署大模型应用。