本报告总结了第二阶段在语音前端处理、语音活动检测(VAD)、云端语音识别(ASR)与语音合成(TTS)四大模块的技术成果,统一呈现接口规范、评测数据与工程衔接方案。所有示例与实现均与仓库依赖一致(
cpp-httplib、nlohmann::json、PortAudio、事件总线架构)。
1. 架构总览与闭环
- 技术闭环:麦克风采集 → 前端清洗(HPF/NS/AEC/AGC/BF)→ VAD 端点判定 → ASR 上传与解析 → 文本处理 → TTS 合成 → 播放输出。
- 事件驱动:
AudioContentRecordingDone→AsrTextReady→TtsAudioReady→ 播放;配置统一由Configuration提供(/asr/*、/tts/*)。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



