ChatAudio 通过TTS + STT + GPT 实现语音对话（低仿微信聊天）

最新推荐文章于 2025-10-31 15:51:30 发布

原创

最新推荐文章于 2025-10-31 15:51:30 发布 · 7k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#gpt #微信

本文介绍了如何通过STT（语音转文字）、TTS（文字转语音）和GPT实现类似微信聊天的语音对话功能。利用OpenAI的GPT进行核心对话，科大讯飞的API处理音频转换，并提供了前端实现的详细步骤，包括Vue和Element UI的使用。

效果图

什么是 STT 和 TTS？

STT 是语音转文字（Speech To Text）
TTS 是文字转语音（Text To Speech）

为什么要使用 SST + TTS 如果用户直接输入音频，OpenAI 的 API 中并没有直接使用语音和 GPT 进行对话的功能。

所需依赖

express
express-fileupload
openai
websocket
nodemon
dotenv

实现语音转文字（STT）

前面说到了，OpenAI 中不存在这种 API，但是提供了一个 Whisper 机器人，支持将音频流转化为文本，也就是 STT。

实现如下返回的 text 就是识别的语音内容

const {
   data: { text: prompt },
} = await openai.createTranscription(
  fs.createReadStream(fileName),
  "whisper-1"
);

实现文字转语音（TTS）

OpenAI 目前只提供了 STT，如果需要返回给用户一个音频的话。就需要用到国内的科大讯飞每天有 5.05w 次免费的 TTS^[1]。

如果你有国外信用卡，可以考虑使用微软推出 Azure，很多电报机器人就是用的它来开发的，免费使用 12个月。

所以在这里还是使用科大讯飞的 TTS

文字生成音频文件

音频没有直接返回流，而是直接生

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

悲伤日记

关注关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

文本转语音（TTS）与语音到语音翻译（STST)

08-12

593

对于语音到文本的任务，每个输入语音只对应一个正确的输出文本，但是对于文本到语音的任务，输入文本可以映射到多个可能的语音。这也是一种数据和计算效率很高的开发STST系统的方式，因为现有的语音识别和文本到语音系统可以耦合在一起，产生新的STST模型，无需进行任何额外的训练。我们也可以使用三阶段方法，首先使用自动语音识别（ASR）系统将源语音转录成同一语言的文本，然后使用机器翻译将转录的文本翻译成目标语言，最后使用文本到语音生成目标语言的语音。在ASR模型中，解码器的初始输出序列是一个仅包含“起始”标记的序列。

TTS and STT

01-13

使用C++在服务器上依赖Libcurl实现了TTS_STT功能.

参与评论您还未登录，请先登录后发表或查看评论

TTS（Text-to-Speech）和 STT（Speech-to-Text）

gs80140的专栏

03-31

1614

TTS（Text-to-Speech）和 STT（Speech-to-Text）是两种互补的语音技术，主要区别在于。

ChatTTS语音合成只能本地用？cpolar让跨平台协作无障碍！

最新发布

Pocker_Spades_A的博客

10-31

1万+

做自媒体的朋友是不是经常遇到：想给视频配个自然的AI语音，又怕文字稿泄露？ChatTTS本地部署版帮你解决，语音合成效果堪比真人，数据还不外流🔒。但问题来了，团队成员不在一个网络，想一起调整语音参数只能传文件？别愁，cpolar内网穿透来帮忙，让你的本地AI语音服务变成“云端工具”，团队协作从此告别“文件飞来飞去”！ChatTTS的核心功能就像你的“私人配音演员”，输入文字就能生成带情感的语音，支持萝莉音、大叔音等多种风格，甚至能调整语速和停顿，简直是内容创作者的福音！

微软上TTS和STT

01-11

使用c++在服务器上实现TTS以及STT功能

文字转语音（TTS）和语音转文字（STT）是语音技术领域的两大核心技术

02-25

1820

TTS和STT技术通过深度学习的推动取得了显著进展，但仍需在自然度、多语言支持、低资源场景等方面持续优化。未来，这两项技术将进一步融入日常生活，成为人机交互的核心组件。

科大讯飞TTS（文字转语音）和STT（语音转文字）

2401_85565442的博客

05-10

2938

科大讯飞TTS（文字转语音）和STT（语音转文字）

一款AIoT智能情感陪伴电宠，接入LLM+STT+TTS接口实现实时对话，基于RpiGPIO控制动作反馈。.zip

08-25

这款AIoT智能情感陪伴电宠通过集成LLM、STT、TTS等人工智能技术以及RpiGPIO控制技术，实现了与用户的实时对话和动作反馈，为用户提供了一种新型的情感陪伴方式。随着相关技术的不断进步，未来的智能电宠将拥有更多的...

流式语音交互（STT+TTS）

artificiali的博客

09-18

329

目标：实现完整的语音交互功能，包含录音、语音识别（STT）、AI对话回复、语音合成（TTS）和音频播放的全流程。功能：录音 → 语音识别 → AI对话 → 语音合成 → 播放，全部在内存中完成，不写入磁盘。，适合实时交互场景。

2021AUT人工智能大作业：STT+rasa+TTS+pyqt；一个简陋的作业.zip

03-09

标题 "2021AUT人工智能大作业：STT+rasa+TTS+pyqt；一个简陋的作业.zip" 提供的关键知识点包括人工智能（AI）、语音识别（STT）、对话管理（rasa）、文本转语音（TTS）以及Python GUI开发库PyQt。这个项目可能是一个...

openai gpt的新的开源项目，支持gpt聊天，识图（gpt4v），文字转语音（tts）和stt（语音转文字），并且易于扩展，使用angular和python

m0_46531302的博客

12-04

2584

项目地址： GitHub - Basicconstruction/turboUI: 使用angular编写的流式gpt代码，可以使用gpt-4-vision,tts,whisper模型因为项目确实需要一个名字，常规的名字是gpt，chat什么的，往往和gpt，gpt的聊天有关，我确实也不太好想到一个合适的名字，turbo可以说是取自gpt-3.5-turbo中的turbo，而且之前国内的一些大模型也总是加个turbo。所以干脆就用这个名字了。下面对该项目的使用和设计进行简单的介绍。openai的gpt-

STT-TTS-Android:一个演示应用程序，展示了 Android 中的 Speech-to-text 和 Text-to-speech

05-29

STT-TTS-Android 一个演示应用程序，展示了 Android 中的 Speech-to-text 和 Text-to-speech。你可以在我关于文章中找到深入的解释看到它在行动在观看演示视频

英语（外语）听力及口语锻炼必备神器——GPT TTS语音对话

weixin_68336959的博客

01-14

1039

现在，GPT的TTS语音对话功能，对于英语（或者其他外语）的学习，就是一个绝佳的好工具。大家都知道GPT“精通”多国语言，体现在语境内容上非常符合当地语言，而不会出现生硬的情况；而现在配上几乎媲美真人的语音，所以语言口语及听力练习是非常好的用法！

Lobe TTS 入门指南 - 高质量可靠的服务器和浏览器 TTS/STT 库

Nifc666的博客

09-10

656

Lobe TTS 为开发者提供了一个强大而灵活的 TTS/STT 解决方案。无论您是在开发服务器端应用还是浏览器端应用，Lobe TTS 都能满足您的语音合成需求。立即开始使用 Lobe TTS，为您的应用添加高质量的语音功能吧！希望这篇入门指南能帮助您快速上手 Lobe TTS。如果您在使用过程中遇到任何问题，欢迎查阅官方文档或在 GitHub 仓库中提出问题。祝您使用愉快！🎉项目链接：www.dongaigc.com/a/lobe-tts-beginners-guide。

探索Lobe TTS：高质量、可靠的TTS/STT库

gitblog_00793的博客

09-03

419

探索Lobe TTS：高质量、可靠的TTS/STT库在数字化时代，语音技术的应用越来越广泛，从智能助手到在线教育，再到娱乐互动，语音合成（TTS）和语音识别（STT）技术正逐渐成为不可或缺的一部分。今天，我们将深入介绍一个令人印象深刻的开源项目——Lobe TTS，这是一个支持服务器端和浏览器端的高质量、可靠的TTS/STT库。项目介绍 Lobe TTS是由LobeHub团队开发的一个开源项目...

GPT-5 语音对话新功能开启使用教程！ChatGPT语音对话技巧：提高对话质量的秘诀！

GGBOss8的博客

10-01

1万+

调用火山云的语音生成TTS和语音识别STT

weighless的博客

09-05

5616

首先需要去火山云的控制台开通TTS和STT服务火山这里都提供了免费的额度可以使用我这里是使用了java来调用API目前我还了解到阿里的开源项目SenseVoice（STT）和CosyVoice(TTS)非常的不错，但是都是使用Python开发的。可以做到说话情绪的识别，感兴趣可以去github上了解一下。

前端流式播放TTS语音：技术细节与实现

weixin_62428445的博客

05-21

7554

本文将介绍如何在前端实现流式播放文本到语音（TTS）的语音，并加入确保语音播放不重叠的改进方案。我们将探讨使用Web Audio API和WebSocket进行实时语音播放的技术细节，并提供相应的代码示例。通过引入播放状态和音频播放队列，我们能够确保前端流式播放TTS语音时，音频播放不会重叠，从而提供更加流畅和自然的用户体验。

关于ChatGPT实时语音功能，你需要知道的15点总结！