AI 语音助手 - 文本转语音与智能对话系统（已接入deepseek、通义千问、Gimini）

最新推荐文章于 2025-07-14 08:00:00 发布

原创

最新推荐文章于 2025-07-14 08:00:00 发布 · 2.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语音识别 #python

AI 语音助手 - 文本转语音与智能对话系统

项目简介

这是一个基于 Python 开发的 AI 语音助手桌面应用程序,集成了文本转语音(TTS)和智能对话功能。主要特点:

支持文本转语音,包含多种中文语音选项
集成多个 AI 对话模型(Gemini/通义千问/Deepseek)
简洁美观的图形界面
支持语速、音量调节
支持文本导入导出
支持对话历史管理

程序界面截图1
程序界面截图2
程序界面截图3

功能特性

文本转语音

13种不同风格的中文语音(含普通话、粤语、台语)
可调节语速(-100% ~ +100%)
可调节音量(0 ~ 100%)
支持文本文件导入
支持回车快捷转换

AI 对话

支持多种对话模型:
- Google Gemini
- 阿里通义千问
- Deepseek
自动语音朗读功能

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VictorGuardain

关注关注

29
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python调用阿里云通义千问（q-wen-max)API-TTS文本转语音

Cachel Wood的博客

05-26

1745

它将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语（或者其他语言语音）输出的技术，隶属于语音合成（语音合成模型，官方默认提供以下模型可被调用，共有几十种，目前覆盖通用场景、语音播报、配音解说、阅读产品简介、数字人、直播等多种场景。音视频创作中需要将文字转为语音播报的场景，如小说阅读、新闻播报、影视解说、配音等。智能设备/机器人播报的语音内容，如智能客服机器人、智能音箱、数字人等。提交单个语音合成任务，通过回调的方式流式输出中间结果，合成结果通过。）的流式音频，并获取对应时间戳。

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[0]-模型、工具、分词器等支持列表

丨汀、的博客

06-15

726

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[0]-模型、工具、分词器等支持列表

参与评论您还未登录，请先登录后发表或查看评论

基于 DeepSeek 构建智能语音聊天机器人

z240626191s的博客

03-16

1578

本文将深入探讨如何利用 DeepSeek 实现一个具备语音识别、自然语言处理的智能语音聊天机器人。

调用通义千问实现语音合成并将合成的音频通过扬声器播放

ZHW-鲜橙大AI课题组的博客

03-26

2060

通义千问是阿里云推出的一个大型语言模型，基于先进的深度学习技术打造，能够理解和生成自然语言，在多轮对话、知识问答等多种应用场景中发挥重要作用。优点：它具有高度准确的语言理解能力，能精准把握用户问题和意图；支持多种语言输入输出，如中文、英文等；还具备出色的多轮对话支持能力，可依据上下文进行交互，提供自然流畅的对话体验。

DeepSeek人机对话使用教程（PC版）

liaohaiyin的专栏

02-12

4755

DeepSeek 是一款先进的人工智能对话系统

Gemini怎么使用：Gemini 2.0使用指南

热门推荐

Survivor_sl的博客

01-07

1万+

Gemini 2.0的横空出世，可谓是谷歌在AI领域逆袭的一记猛拳。从实时对话，到Imagen3生图模型，再到与Gmail、YouTube等Google服务的无缝整合，处处彰显着谷歌在技术与生态上的深厚积累。1.Gemini 2.0亮点多模态能力（实时对话、屏幕共享等）原生工具集成（直接调用谷歌全家桶）Deep Research深度研究（推理模型，对标o1）原生图像输出能力（一句话P图）2.国内如何使用Gemini 2.0Gemini官网通过Google AI Studio使用API调用。

Gemini 初体验

谢彦的技术博客

03-07

1799

同样需要科学上网。速度很快，而且还不要钱，据说使用太多可能被限流。对于小语种翻译效果比 GPT-4 好，其它还没测试。可通过 ChatBox 界面调用，也可使用 Python 调用。

DeepSeek-V3-0324对比OpenAI GPT-4o和Gemini 2.5 Pro

sexy19910923的博客

03-28

2072

最近几台大模型圈如过年版热闹，以下是DeepSeek-V3-0324、OpenAI GPT-4o与谷歌Gemini 2.5 Pro模型的更新点及优化对比总结。

Gimini-开源

04-27

6. **导入导出格式**：为了与其他应用兼容，Gimini可能支持多种导入和导出格式，如常见的.MAP或.MMD格式，甚至可能包括图片（.PNG, .JPEG）和文本格式（.TXT, .HTML）。 7. **协作与共享**：作为一个现代工具，...

Gemini CLI Markdown 渲染系统深度解析：从流式显示到智能分割的完整架构

步子哥的博客

07-14

689

在现代 AI 工具的交互界面中，如何优雅地渲染和展示 Markdown 内容，特别是在终端环境下，是一个极具挑战性的技术问题。Gemini CLI 通过其精心设计的 Markdown 渲染系统，不仅实现了完整的 Markdown 语法支持，还创新性地解决了流式内容渲染、智能分割、性能优化等关键问题。本文将深入解析和等核心文件，揭示其设计理念和技术创新。Gemini CLI 的 Markdown 渲染系统代表了终端应用界面设计的技术前沿。

DeepSeek V3-DeepSeek开源的最新版 AI 模型，编程能力超越Claude

AI先锋的博客

12-26

5755

【论文笔记】Gemini: A Family of Highly Capable Multimodal Models——细看Gemini

Yulki的博客

12-10

2184

【一句话总结，对标GPT4，模型还是transformer的docoder部分，提出三个不同版本的Gemini模型，Ultra的最牛逼，Nano的可以用在手机上。谷歌提出了一个新系列多模态模型——Gemini家族模型，包括Ultra，Pro，Nano（1.5B Nano-1，3.25BNano-2）三种尺寸（模型由大到小）。在图像、音频、视频和文本理解方面都表现出现，Gemini Ultra在32个benchmarks实现了30个sota。在MMLU中甚至达到了人类专家的性能。

图与推荐[1] - Gimini

ZhuNian的学习乐园

11-28

1301

分享一篇关于图与推荐的论文

【多模态处理篇三】【DeepSeek语音合成：TTS音色克隆技术揭秘】

商务合作|问题讨论|交流学习请联系作者微信，加微信请务必注明来意，博客主页有联系方式

02-22

1439

最近帮某明星工作室做AI语音助手时遇到魔幻需求——要求用5秒的咳嗽声克隆出完整音色！传统TTS系统直接翻车，生成的语音像得了重感冒的电音怪物。直到祭出DeepSeek的TTS音色克隆黑科技，才让AI语音从"机器朗读"进化到"声临其境"。今天我们就来扒开这个声音魔术的底裤，看看如何用3分钟音频克隆你的"声音分身"！

DeepSeek驱动的智能客服革命：语音交互与大模型的融合实践

春风化雨

05-08

1758

DeepSeek大模型与语音技术的融合，正在重构客服行业的服务范式。从成本优化到用户体验升级，这场技术革命不仅为企业创造了实际价值，更预示着人机交互向更自然、智能的方向演进。随着技术边界的不断突破，未来的智能客服或将彻底模糊“机器”与“人类”的服务界限。

DeepSeek-R1模型应用开发：从零开始构建智能对话系统

加入“Super Entity”，与全能开发团队共探AI智能体与数字人项目，开启前沿技术之旅。

06-19

110

本文深入探讨了基于DeepSeek-R1模型构建智能对话系统的完整流程，从系统设计到实现部署，全面介绍了如何开发一个高质量的对话应用。内容包括系统架构设计、对话管理、上下文处理、多轮对话、情感分析等关键技术，帮助读者掌握大模型应用开发的核心技术。fill:#333;color:#333;color:#333;fill:none;服务层业务层前端层模型服务知识库对话管理器上下文处理器用户接口系统架构设计对话管理实现上下文处理模型服务知识库管理。

基于DeepSeek技术：零基础构建企业级定制TTS服务——基于GPT-SoVITS与自训练模型的完整解决方案

理论都是虚的，代码才是王道。

02-10

445

本文通过详细的代码示例和分步讲解，展示了如何基于DeepSeek技术栈构建完整的TTS服务体系，读者可结合实际需求进行调整和扩展，快速实现定制化语音合成服务的落地应用。

【实战】新闻短视频制作：热搜+DeepSeek+ChatTTS+MuseTalk一键生成数字人口播短视频

kakaZhui的博客

02-08

1279

python脚本一键生成视频，使用DeepSeek如何快速生成数字人口播视频

DeepSeek：全面解析与实战教程

Hellc007的博客

02-10

3820

DeepSeek作为一家领先的人工智能公司，提供了基于深度学习的语音识别、自然语言处理和语音合成技术，极大地推动了语音交互技术的发展。随着技术的不断进步，DeepSeek未来可能会继续优化模型，提升多语言支持和应用场景扩展，为各行各业提供更智能、更高效的技术解决方案。DeepSeek的语音识别与NLP技术结合，能够实现实时语音翻译，适用于国际会议、跨语言沟通等场景。语音合成技术能够将文本转化为自然流畅的语音，DeepSeek采用了如WaveNet等深度学习模型生成高质量的语音。

gimini安装使用