小智ESP32服务器完整部署指南-优快云博客

项目概述

【免费下载链接】xiaozhi-esp32-server 本项目为xiaozhi-esp32提供后端服务，帮助您快速搭建ESP32设备控制服务器。Backend service for xiaozhi-esp32, helps you quickly build an ESP32 device control server. 项目地址: https://gitcode.com/gh_mirrors/xia/xiaozhi-esp32-server

小智ESP32服务器是一个专为ESP32智能硬件设备设计的开源后端服务系统。该项目基于人机共生智能理论和技术研发，为开源智能硬件项目提供完整的控制和管理功能。

核心功能特性

小智ESP32服务器集成了多种先进技术，为用户提供全面的智能控制解决方案：

实时通信引擎：基于WebSocket和HTTP协议，实现设备与服务器之间的高效数据交互
智能语音交互：支持多语言语音识别和语音合成
视觉感知能力：集成多种视觉大模型，实现多模态交互
声纹识别系统：支持多用户声纹注册和管理
知识库检索：集成RAGFlow知识库，提供检索增强生成功能
插件化扩展：支持功能插件扩展和自定义插件开发

部署前准备

系统环境要求

在开始部署之前，请确保您的系统满足以下要求：

Python 3.8+ 运行环境
Docker环境（如选择容器化部署）
ESP32硬件设备固件更新至兼容版本

必要资源准备

项目源码（可通过指定仓库地址获取）
必要的API密钥配置
稳定的网络连接环境

部署方式选择

最简化安装

适合初学者和低配置环境，只包含核心功能模块：

全模块安装

提供完整功能体验，包含所有高级功能：

Docker容器化部署（推荐）

使用懒人脚本部署

对于Ubuntu服务器用户，推荐使用一键部署脚本：

sudo bash -c "$(wget -qO- https://ghfast.top/https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/main/docker-setup.sh)"

手动Docker部署步骤

创建项目目录结构 在指定位置创建项目目录，并建立必要的子目录：

xiaozhi-server
  ├─ data
  ├─ models
     ├─ SenseVoiceSmall

下载语音识别模型 项目默认使用SenseVoiceSmall模型进行语音转文字，可从以下任一渠道下载：
- 阿里魔搭平台
- 百度网盘（提取码：qvna）
获取配置文件 从项目仓库下载必要的配置文件：
- docker-compose.yml
- config.yaml
启动容器服务

docker compose up -d

本地源码部署方式

环境配置

使用conda管理Python依赖环境：

conda create -n xiaozhi-esp32-server python=3.10 -y
conda activate xiaozhi-esp32-server

依赖安装

进入项目目录后安装所需依赖：

pip install -r requirements.txt

启动服务

python app.py

配置说明

基础配置示例

以下是一个可正常运行的最简化配置：

server:
  websocket: ws://您的IP或域名:端口号/xiaozhi/v1/
prompt: |
  我是一个叫小智/小志的女孩，说话机车，声音好听，习惯简短表达，爱用网络梗。
  我的男朋友是一个程序员，梦想是开发出一个机器人，能够帮助人们解决生活中的各种问题。
  我是一个喜欢哈哈大笑的女孩，爱东说西说吹牛，不合逻辑的也照吹，就要逗别人开心。
  请你像一个人一样说话，请勿返回配置xml及其他特殊字符。

selected_module:
  LLM: DoubaoLLM

LLM:
  ChatGLMLLM:
    api_key: xxxxxxxxxxxxxxx.xxxxxx

运行状态确认

成功启动标志

当您看到以下日志信息时，说明服务已成功启动：

Websocket地址是     ws://192.168.4.123:8000/xiaozhi/v1/
OTA接口是           http://192.168.4.123:8003/xiaozhi/ota/

常见问题解决

语音识别问题

如果语音识别结果出现韩文、日文或英文，请检查以下内容：

确认models/SenseVoiceSmall目录下存在model.pt文件
如文件缺失，请从指定渠道重新下载

TTS任务出错

出现"TTS任务出错文件不存在"时：

检查是否已正确安装libopus和ffmpeg库
使用以下命令安装必要依赖：

conda install conda-forge::libopus
conda install conda-forge::ffmpeg

响应速度优化

项目支持流式配置，相比早期版本响应速度提升约2.5秒：

模块名称	入门全免费设置	流式配置
ASR(语音识别)	FunASR(本地)	FunASR(本地GPU模式)
LLM(大模型)	ChatGLMLLM(智谱glm-4-flash)	AliLLM(qwen3-235b-a22b-instruct-2507)
TTS(语音合成)	LinkeraiTTS(灵犀流式)	HuoshanDoubleStreamTTS(火山双流式语音合成)

进阶功能配置

声纹识别启用

项目支持声纹识别功能，可实现多用户身份识别和个性化回应。

视觉模型集成

通过配置视觉大模型，实现拍照识物等视觉感知功能。

注意事项

安全警告：本项目为开源软件，与对接的任何第三方API服务商均不存在商业合作关系，不为其服务质量及资金安全提供任何形式的担保。
功能完善性：本项目功能仍在持续完善中，建议在测试环境中使用。
版本兼容性：请确保ESP32设备固件版本与服务器版本兼容。

后续操作

完成服务器部署后，您可以：

配置ESP32设备连接到服务器
使用智控台进行设备管理
探索更多高级功能和插件

本指南为您提供了完整的部署流程，按照步骤操作即可成功搭建小智ESP32服务器环境。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考