项目概述
小智ESP32服务器是一个专为ESP32智能硬件设备设计的开源后端服务系统。该项目基于人机共生智能理论和技术研发,为开源智能硬件项目提供完整的控制和管理功能。
核心功能特性
小智ESP32服务器集成了多种先进技术,为用户提供全面的智能控制解决方案:
- 实时通信引擎:基于WebSocket和HTTP协议,实现设备与服务器之间的高效数据交互
- 智能语音交互:支持多语言语音识别和语音合成
- 视觉感知能力:集成多种视觉大模型,实现多模态交互
- 声纹识别系统:支持多用户声纹注册和管理
- 知识库检索:集成RAGFlow知识库,提供检索增强生成功能
- 插件化扩展:支持功能插件扩展和自定义插件开发
部署前准备
系统环境要求
在开始部署之前,请确保您的系统满足以下要求:
- Python 3.8+ 运行环境
- Docker环境(如选择容器化部署)
- ESP32硬件设备固件更新至兼容版本
必要资源准备
- 项目源码(可通过指定仓库地址获取)
- 必要的API密钥配置
- 稳定的网络连接环境
部署方式选择
最简化安装
适合初学者和低配置环境,只包含核心功能模块:
全模块安装
提供完整功能体验,包含所有高级功能:
Docker容器化部署(推荐)
使用懒人脚本部署
对于Ubuntu服务器用户,推荐使用一键部署脚本:
sudo bash -c "$(wget -qO- https://ghfast.top/https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/main/docker-setup.sh)"
手动Docker部署步骤
- 创建项目目录结构 在指定位置创建项目目录,并建立必要的子目录:
xiaozhi-server
├─ data
├─ models
├─ SenseVoiceSmall
-
下载语音识别模型 项目默认使用SenseVoiceSmall模型进行语音转文字,可从以下任一渠道下载:
- 阿里魔搭平台
- 百度网盘(提取码:qvna)
-
获取配置文件 从项目仓库下载必要的配置文件:
- docker-compose.yml
- config.yaml
-
启动容器服务
docker compose up -d
本地源码部署方式
环境配置
使用conda管理Python依赖环境:
conda create -n xiaozhi-esp32-server python=3.10 -y
conda activate xiaozhi-esp32-server
依赖安装
进入项目目录后安装所需依赖:
pip install -r requirements.txt
启动服务
python app.py
配置说明
基础配置示例
以下是一个可正常运行的最简化配置:
server:
websocket: ws://您的IP或域名:端口号/xiaozhi/v1/
prompt: |
我是一个叫小智/小志的女孩,说话机车,声音好听,习惯简短表达,爱用网络梗。
我的男朋友是一个程序员,梦想是开发出一个机器人,能够帮助人们解决生活中的各种问题。
我是一个喜欢哈哈大笑的女孩,爱东说西说吹牛,不合逻辑的也照吹,就要逗别人开心。
请你像一个人一样说话,请勿返回配置xml及其他特殊字符。
selected_module:
LLM: DoubaoLLM
LLM:
ChatGLMLLM:
api_key: xxxxxxxxxxxxxxx.xxxxxx
运行状态确认
成功启动标志
当您看到以下日志信息时,说明服务已成功启动:
Websocket地址是 ws://192.168.4.123:8000/xiaozhi/v1/
OTA接口是 http://192.168.4.123:8003/xiaozhi/ota/
常见问题解决
语音识别问题
如果语音识别结果出现韩文、日文或英文,请检查以下内容:
- 确认models/SenseVoiceSmall目录下存在model.pt文件
- 如文件缺失,请从指定渠道重新下载
TTS任务出错
出现"TTS任务出错 文件不存在"时:
- 检查是否已正确安装libopus和ffmpeg库
- 使用以下命令安装必要依赖:
conda install conda-forge::libopus
conda install conda-forge::ffmpeg
响应速度优化
项目支持流式配置,相比早期版本响应速度提升约2.5秒:
| 模块名称 | 入门全免费设置 | 流式配置 |
|---|---|---|
| ASR(语音识别) | FunASR(本地) | FunASR(本地GPU模式) |
| LLM(大模型) | ChatGLMLLM(智谱glm-4-flash) | AliLLM(qwen3-235b-a22b-instruct-2507) |
| TTS(语音合成) | LinkeraiTTS(灵犀流式) | HuoshanDoubleStreamTTS(火山双流式语音合成) |
进阶功能配置
声纹识别启用
项目支持声纹识别功能,可实现多用户身份识别和个性化回应。
视觉模型集成
通过配置视觉大模型,实现拍照识物等视觉感知功能。
注意事项
-
安全警告:本项目为开源软件,与对接的任何第三方API服务商均不存在商业合作关系,不为其服务质量及资金安全提供任何形式的担保。
-
功能完善性:本项目功能仍在持续完善中,建议在测试环境中使用。
-
版本兼容性:请确保ESP32设备固件版本与服务器版本兼容。
后续操作
完成服务器部署后,您可以:
- 配置ESP32设备连接到服务器
- 使用智控台进行设备管理
- 探索更多高级功能和插件
本指南为您提供了完整的部署流程,按照步骤操作即可成功搭建小智ESP32服务器环境。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考





