AI 应用 图文 解说 (一) -- 百度智能云 实现 语音 聊天

部署运行你感兴趣的模型镜像

 文章的目的为了记录AI应用学习的经历,降低AI的入门难度。同时记录开发流程和要点有些记忆模糊,防止忘记。也希望可以给看到文章的朋友带来一些收获。

 相关链接:
AI 应用 图文 解说 (一) -- 百度智能云 实现 语音 聊天-优快云博客
AI 应用 图文 解说 (二) -- 百度智能云 ASR LIM TTS 语音AI助手程序 -优快云博客

推荐链接:

开源 python 应用 开发(一)python、pip、pyAutogui、python opencv安装-优快云博客

开源 python 应用 开发(二)基于pyautogui、open cv 视觉识别的工具自动化-优快云博客

开源 python 应用 开发(三)python语法介绍-优快云博客

开源 python 应用 开发(四)python文件和系统综合应用-优快云博客

开源 python 应用 开发(五)python opencv之目标检测-优快云博客

开源 python 应用 开发(六)网络爬虫-优快云博客

开源 python 应用 开发(七)数据可视化-优快云博客

开源 python 应用 开发(八)图片比对-优快云博客

开源 python 应用 开发(九)目标跟踪-优快云博客

开源 python 应用 开发(十)音频压缩-优快云博客

开源 python 应用 开发(十一)AI应用--百度智能云ASR短语音转文本-优快云博客

开源 python 应用 开发(十二)AI应用--百度智能云Agent聊天-优快云博客

开源 python 应用 开发(十三)AI应用--百度智能云TTS语音合成-优快云博客

开源 python 应用 开发(十四)python快速建设网站-优快云博客

 推荐链接:

开源 Arkts 鸿蒙应用 开发(一)工程文件分析-优快云博客

开源 Arkts 鸿蒙应用 开发(二)封装库.har制作和应用-优快云博客

开源 Arkts 鸿蒙应用 开发(三)Arkts的介绍-优快云博客

开源 Arkts 鸿蒙应用 开发(四)布局和常用控件-优快云博客

开源 Arkts 鸿蒙应用 开发(五)控件组成和复杂控件-优快云博客

 推荐链接:

开源 java android app 开发(一)开发环境的搭建-优快云博客

开源 java android app 开发(二)工程文件结构-优快云博客

开源 java android app 开发(三)GUI界面布局和常用组件-优快云博客

开源 java android app 开发(四)GUI界面重要组件-优快云博客

开源 java android app 开发(五)文件和数据库存储-优快云博客

开源 java android app 开发(六)多媒体使用-优快云博客

开源 java android app 开发(七)通讯之Tcp和Http-优快云博客

开源 java android app 开发(八)通讯之Mqtt和Ble-优快云博客

开源 java android app 开发(九)后台之线程和服务-优快云博客

开源 java android app 开发(十)广播机制-优快云博客

开源 java android app 开发(十一)调试、发布-优快云博客

开源 java android app 开发(十二)封库.aar-优快云博客

推荐链接:

开源C# .net mvc 开发(一)WEB搭建_c#部署web程序-优快云博客

开源 C# .net mvc 开发(二)网站快速搭建_c#网站开发-优快云博客

开源 C# .net mvc 开发(三)WEB内外网访问(VS发布、IIS配置网站、花生壳外网穿刺访问)_c# mvc 域名下不可訪問內網,內網下可以訪問域名-优快云博客

开源 C# .net mvc 开发(四)工程结构、页面提交以及显示_c#工程结构-优快云博客

​​​​​​开源 C# .net mvc 开发(五)常用代码快速开发_c# mvc开发-优快云博客

人工智能(AI)在多个领域发挥着重要作用,最典型最常见的就是语音识别聊天功能。文章是为了记录本人的AI应用的初次体验,同时希望可以带给大家AI应用快速入门的方法,实现0到1的突破,提高学习的小路,尽量用图文的方式来描述,在文中也有代码的链接,已经经过验证可以直接使用。

本章的主要内容是:通过百度智能云实现语音聊天功能,主要会用到它的语音识别(ASR)、语音合成(TTS),并结合大语言模型(如文心一言)来生成回复

目录:

1.流程和使用

2.ASR、TTS、千帆APP builer 注册和使用

3.各项成本

一、流程和使用

1.1  准备阶段    

注册百度智能云 ,创建应用  , 配置认证信息  

1.2  核心功能    

语音识别 (ASR)    录制或读取音频 → 调用识别接口 → 获取文本    需注意音频格式(如wav)、采样率(16000Hz)18
文本处理与对话生成    将识别文本发送至大模型 → 获取回复文本    需调用大模型(如文心一言)的API2
语音合成 (TTS)    将回复文本 + 参数 → 调用合成接口 → 生成音频    可调整语速、音调、发音人等参数12


1.3  集成与交互    

流程串联与交互逻辑    将上述三个核心模块按顺序连接    可加入循环实现连续对话
音频播放    播放合成后的音频文件    可使用 pygame 等库4

1.4   优化与成本    

成本控制    关注语音识别/合成调用次数及大模型Token消耗    新人通常有免费额度2
体验优化    调整语音参数、处理网络异常、添加唤醒词等    提升应用可用性和用户体验

二、ASR、TTS、千帆APP builer 注册和使用

登录网址

https://login.bce.baidu.com/

语音识别、语音合成、千帆大模型需分别开通

2.1  语音识别注册和使用

选择开通付费,默认赠送10小时流量,不购买资源

实名认证后获取 API Key 和 Secret Key  

获得测试音频文件

进入示例代码中心进行调试

上传测试音频后实现效果

详细源码参考网址

开源 python 应用 开发(十一)AI应用--百度智能云ASR短语音转文本-优快云博客

2.2  语音合成注册和使用

进入实例中心

使用实例代码进行调试

详细源码参考网址

开源 python 应用 开发(十三)AI应用--百度智能云TTS语音合成-优快云博客

2.3  聊天模型的创建和使用

设置agent的名字和类型,并生成。

进行生成

简单调试

发布

官方的API代码调试

源码详细参考网址

开源 python 应用 开发(十一)AI应用--百度智能云ASR短语音转文本-优快云博客

三、成本介绍

3.1  语音识别价格

3.2  语音合成的价格

3.3  千帆AppBuiler的免费资源

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型,用户只需输入视频和文字,就能为视频匹配电影级音效

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值