ASR-LLM-TTS 项目使用与配置指南

最新推荐文章于 2025-05-10 08:00:00 发布

雷豪创Isaiah

最新推荐文章于 2025-05-10 08:00:00 发布

阅读量892

点赞数 16

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00508/article/details/147111518

ASR-LLM-TTS 项目使用与配置指南

ASR-LLM-TTS This is a speech interaction system built on an open-source model, integrating ASR, LLM, and TTS in sequence. The ASR model is SenceVoice, the LLM models are QWen2.5-0.5B/1.5B, and there are three TTS models: CosyVoice, Edge-TTS, and pyttsx3 项目地址: https://gitcode.com/gh_mirrors/as/ASR-LLM-TTS

1. 项目的目录结构及介绍

ASR-LLM-TTS 项目是一个基于开源模型的语音交互系统，集成了自动语音识别（ASR）、大型语言模型（LLM）和文本到语音（TTS）的功能。项目的目录结构如下：

asset/：存储项目所需的资源文件。
cosyvoice/：CosyVoice 相关的文件和模型。
docker/：与 Docker 容器相关的配置文件。
examples/：示例脚本和代码。
runtime/：运行时依赖的文件和脚本。
third_party/：第三方依赖库和模型。
tools/：项目所需的工具脚本。
.gitignore：Git 忽略文件列表。
.gitmodules：Git 子模块配置文件。
0_Inference_QWen2.5.py：QWen2.5 模型推理脚本。
10_SenceVoice_QWen2.5_cosyVoice.py：集成 SenceVoice 和 QWen2.5 CosyVoice 的脚本。
...：其他脚本和配置文件。

每个目录和文件都有其特定的作用，确保了项目的正常运作。

2. 项目的启动文件介绍

项目的启动文件通常是主脚本，例如 10_SenceVoice_QWen2.5_cosyVoice.py。这个脚本负责初始化项目所需的所有组件，包括 ASR 模型、LLM 模型和 TTS 模型，并且协调整个语音交互流程。

启动文件的主要步骤包括：

加载配置文件。
初始化 ASR、LLM 和 TTS 模型。
设置输入输出流。
执行语音识别、语言理解和语音合成。

3. 项目的配置文件介绍

项目的配置文件用于定义和调整项目运行时的参数。这些文件通常包括：

requirements.txt：项目依赖的 Python 包列表。
environment.yml：用于 Conda 环境的配置文件，包含了项目所需的环境和依赖。
README.md：项目的说明文档，包含了项目描述、使用方法和依赖安装指南。

配置文件的具体内容如下：

requirements.txt 可能包含如下内容：

edge-tts==6.1.17
funasr==1.1.12
ffmpeg==1.4
opencv-python==4.10.0.84
transformers==4.45.2
webrtcvad==2.0.10
qwen-vl-utils==0.0.8
pygame==2.6.1
langid==1.1.6
langdetect==1.0.9
accelerate==0.33.0
PyAudio==0.2.14

environment.yml 可能包含如下内容：

name: asr-llm-tts
dependencies:
  - python=3.10
  - torch==2.3.1
  torchvision==0.18.1
  torchaudio==2.3.1
  # 其他依赖项

使用这些配置文件，用户可以轻松地创建一个合适的环境并安装所需的依赖项，从而能够顺利运行项目。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考