端到端语音_麻瓜pro的博客-优快云博客

端到端语音

关注

文章平均质量分 94

本专栏深入端到端语音系统，覆盖ASR、LLM及TTS三大核心模块，从理论到实践，构建真正可对话的AI。

关注数：文章数：5 文章阅读量：7622 文章收藏量：102

作者: 麻瓜pro

在人工智能的征途上，代码是信念，算法是翅膀。每一次调参的深夜、每一次模型崩溃后的重启，都是向前迈出的坚实一步。别畏惧复杂度与未知，勇敢拆解每一个维度、拥抱每一次迭代——日日精进，终会把零散的算子、熬红的双眼与不屈的好奇心，锻造成驱动未来的蓝图。心怀热爱，笃定前行，你会从探索者成长为设计者，最终站在架构之巅，以宏大的视野、优雅的系统，将智能之光铺展到世界的每一个角落。

展开

专栏收录文章

高性能流ASR C++实现

本文介绍的流式ASR系统通过环形缓冲区、VAD状态机、多线程处理池等技术，实现了高性能的实时语音识别。低延迟：流式处理，边说边识别高并发：多线程架构，充分利用多核内存高效：环形缓冲区，固定内存占用易扩展：模块化设计，方便集成新功能完整的源代码已开源在GitHub，欢迎大家使用和贡献代码。未来我将添加更多功能，如说话人分离、情感识别等。

原创 2025-08-10 12:56:10 · 1115 阅读 · 0 评论
Matcha-TTS 高性能 C++ 实现

文本输入 → 文本预处理 → 声学模型(Matcha) → 梅尔频谱 → 声码器(Vocos) → 复数频域谱 → ISTFT → Hann → 时域音频波形。

原创 2025-07-11 19:31:24 · 805 阅读 · 0 评论
本地端到端语音(ASR-LLM-TTS)

你有没有想象过在本地快速搭建一个完整的语音对话系统？只需一台普通电脑，无需联网，甚至低算力设备也能流畅运行。这篇博客将手把手带你实现一个端到端的语音交互系统，从语音输入到语音回复，全链路完整展示。ASR-LLM-TTS Onnx 项目实现一个在本地运行的端到端语音对话系统，能够完成“语音 -> 文本 -> 对话回复 -> 语音”的全过程。项目地址：https://github.com/muggle-stack/asr-llm-tts。

原创 2025-06-04 09:30:00 · 2972 阅读 · 2 评论
ETE_Voice：端到端C++智能语音对话系统

随着AI技术的发展，语音交互成为人机交互的重要方向。本文将详细介绍ETE_Voice项目——一个完整的C++端到端智能语音对话系统，集成了自动语音识别(ASR)、**大语言模型(LLM)和文本转语音(TTS)**功能。项目GitHub技术栈ETE_Voice项目展示了如何构建一个完整的端到端智能语音对话系统。通过模块化设计、先进的AI模型集成和精心的工程优化，实现了从语音输入到语音输出的自然交互体验。提供了完整的语音对话系统实现方案展示了多个AI模型的工程化集成方法。

原创 2025-07-26 17:18:57 · 1364 阅读 · 0 评论
高性能 ASR Sensevoice C++ 实现

本项目实现了一个完整的实时自动语音识别(ASR)系统，从最初的Python原型成功迁移到高性能的C++实现。系统集成了SenseVoice模型，支持中文、英文、日文、韩文和粤语等多语言识别，在保持完整功能的同时实现了显著的性能提升。性能提升实时因子(RTF): 从0.09提升到0.04-0.05，提升45-55%内存使用: 从460MB降低到360MB，减少约20%启动速度: 显著提升，模型加载更快功能完整性✅ 保持了所有Python版本的功能特性✅ 支持多语言识别 (中、英、日、韩、粤语)

原创 2025-06-26 16:22:00 · 1368 阅读 · 0 评论

端到端语音

作者: 麻瓜pro

高性能 流ASR C++实现

Matcha-TTS 高性能 C++ 实现

本地端到端语音(ASR-LLM-TTS)

ETE_Voice：端到端C++智能语音对话系统

高性能 ASR Sensevoice C++ 实现

高性能流ASR C++实现