Neuro：实时自然语音交互的强大工具

班歆韦Divine

于 2025-03-27 14:54:05 发布

阅读量709

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00048/article/details/146559643

Neuro：实时自然语音交互的强大工具

Neuro A recreation of Neuro-Sama originally created in 7 days. 项目地址: https://gitcode.com/gh_mirrors/neuro6/Neuro

在当今人工智能迅速发展的时代，实时语音交互技术受到了广泛关注。今天，我们为大家介绍一个开源项目——Neuro，它致力于在普通消费者硬件上实现本地模型的语音识别与合成，为我们带来更加自然和流畅的人机对话体验。

项目介绍

Neuro项目的目标是复现Neuro-Sama的功能，但仅限于在本地模型上运行，且这些模型能在普通消费者硬件上高效运行。原版Neuro-Sama是在7天内完成的，因此它并不算非常复杂。Neuro通过集成实时语音识别（STT）、实时语音合成（TTS）、前端控制面板等多种功能，为用户提供了易于交互和管理的体验。

项目技术分析

技术架构

Neuro项目采用了模块化设计，将各个功能模块独立为不同的Python文件和类。这种设计使得代码易于管理和扩展。以下是一些核心技术组件：

LLM（Large Language Model）：项目使用了oobabooga的text-generation-webui，运行LLAMA 3 8B Instruct EXL2模型，通过openai api extension与LLM交互。
Multimodal LLM：使用MiniCPM-Llama3-V-2_5-int4模型，支持高分辨率输入和OCR。
STT：采用KoljaB的RealtimeSTT，实现实时语音识别。
TTS：使用KoljaB的RealtimeTTS和CoquiTTS的XTTSv2模型，实现实时语音合成。
Vtuber模型控制：通过虚拟音频线将TTS输出导入Vtube Studio，实现模型唇同步。