dify案例分享-国内首发!手把手教你用Dify调用Nano BananaAI画图

原文:dify案例分享-国内首发!手把手教你用Dify调用Nano BananaAI画图 - 哔哩哔哩

1.前言

Google 的 Nano Banana 是谷歌最新推出的图像生成与编辑模型,其正式名称为 Gemini 2.5 Flash Image 。该模型是谷歌在多模态AI领域的重要进展,专注于图像生成和编辑,具备强大的图像生成、编辑和多轮交互能力 。Nano Banana 被认为是目前最优秀的AI图像工具之一,其性能强大,效果出色,尤其在图像生成、编辑、动画制作等方面表现突出。

 最近这个Nano Banana非常火爆,考虑到这个模型国内很多小伙伴不能直接访问,今天我也来凑个热闹,使用dify做了个插件,然后在dify平台上实现了这个Nano Banana。我们看一下生成的效果。

上面这个图是我韩国的学生证做的手办。

我的学生证

 哈哈是不是很帅。

在上一张美女手办

是不是很漂亮,那么这个工作流是什么样子的呢?

通过上面的工作流我们可以制作基于Nano Banana任何风格的图片(电商场景、广告创意、摄影技巧、社媒内容、动漫创作、建筑景观、3D效果、实用变现、其他功能)。那么话不多说,下面带大家一步一步制作。

2.工作流制作

插件安装

在工作流制作之前我们这里需要提前下载插件。目前这个插件我已经开源上传到github上,dify插件市场我也会提交上传,不过这个需要等待审核。时间关系我们就通过插件下载本地上传方式来安装这个插件。

打开我们本地或者私有化部署的dify平台,插件管理

在下拉选项中选择本地插件

选择这个刚才打包好的dify插件包上传到dify平台

点击安装后 插件在dify平台上实现安装了,我们稍等片刻。

授权

安装成功后,我们需要对这插件进行授权,我们这里使用OpenRouter API,大家可以在OpenRouter 注册一个账号生成APIkey 授权到这个插件,完成授权成功。

关于如何使用AI来辅助开发dify插件,本次就不做介绍了,感兴趣的小伙伴可以看我之前的文章《网页链接

开始

这个工作流开始节点有4个输入字段(提示词、图片、类型、是否提示词扩写)

其中提示词是文本字段类型是必填项。

istype 是一个下拉选择,主要目的是判断是否需要提示词扩写(有的小伙伴自己有更好的提示词,这样就不需要扩写了)

picture 是一个基于用户上传的图片,我们这里选择单文件(图片类型),该字段设置非必填项。(不需要图生图这块可以不传值)

### Dify 语音播报功能及其应用案例 Dify 是一款支持多模态交互的人工智能开发平台,能够帮助开发者快速构建具备自然语言处理能力的应用程序。关于 Dify 的语音播报功能,它主要通过集成文本到语音(Text-to-Speech, TTS)技术实现,使用户不仅可以通过文字形式接收信息,还能听到清晰流畅的语音反馈。 #### 功能概述 Dify 平台允许开发者自定义代理助理的行为模式,其中包括设置对话开场白和初始问题[^1]。这使得当用户首次与代理助理互动时,系统可以主动提供任务类型的介绍以及可提问的例子。这种设计有助于提升用户体验并引导用户更高效地利用系统的各项功能。 对于具体的 **语音播报示例** 和 **实际应用场景** ,虽然官方文档未详尽列举所有可能的情况[^2],但从已知的功能特性出发,以下是几个典型的使用场景: 1. **客户服务机器人** - 场景描述:企业网站或移动应用程序中的虚拟客服角色采用 Dify 技术来响应客户的咨询请求。 - 实现方式:客户输入查询后,除了显示书面答复外,还会播放对应的音频文件解释解决方案。 2. **教育辅助工具** - 应用领域:在线学习平台上部署基于 Dify 构建的教学助手,用于朗读课程材料或者解答学生疑问。 - 特点优势:相比单纯依赖视觉媒介传递知识而言,加入听觉维度能更好地满足不同学习风格的需求。 3. **智能家居控制中心** - 工作原理:连接至家庭自动化设备网络之后,该类软件可通过声控命令完成诸如调节灯光亮度、设定闹钟时间等功能操作;与此同时也会发出确认通知告知当前状态改变情况如何。 4. **无障碍访问服务** - 面向群体:视力受损人士或其他难以依靠传统屏幕阅读方法获取资讯者。 - 解决方案:借助高质量合成音效再现网页内容摘要或者其他重要数据片段供这类特殊需求人群收听理解。 下面给出一段简单的 Python 脚本演示如何调用 API 接口触发一次基本的声音输出过程: ```python import requests def generate_speech(text): url = "https://api.dify.com/v1/synthesize" headers = { 'Authorization': 'Bearer YOUR_ACCESS_TOKEN', 'Content-Type': 'application/json' } payload = {"text": text} response = requests.post(url, json=payload, headers=headers) if response.status_code == 200: audio_url = response.json().get('audioUrl') return audio_url else: raise Exception(f"Error generating speech: {response.text}") if __name__ == "__main__": sample_text = "欢迎来到Dify的世界!" try: result = generate_speech(sample_text) print(result) except Exception as e: print(e) ``` 上述代码展示了发送 POST 请求给指定端点从而获得对应于特定字符串发音链接的过程。需要注意的是,在真实环境中应当妥善保管个人认证令牌以免泄露敏感权限信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值