通过Docker启动PaddleSpeech服务

最新推荐文章于 2025-08-19 09:56:30 发布

原创最新推荐文章于 2025-08-19 09:56:30 发布 · 997 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#docker #容器 #运维

该文章已生成可运行项目，

背景

在公司内部牵头AI应用场景的落地，需要用到OCR、ASR、视频切片和AGENT等相关技术。后来选型用了百度飞桨（Paddle）。一开始是看Paddle的库足够丰富，有用来处理自然语言的PaddleNLP，做OCR的PaddleOCR，以及处理Speech2Text，Text2Speesh等语音文字处理的PaddleSpeech等。结果没想到落地过程中困难重重（主要是官方文档指引不清晰+各种版本冲突），遂记录一下落地过程中的一些坑。

以下是我们公司内部落地AI应用的交互时序图：
交互流程图

声明

强烈不建议使用源码编译或者pip等方式安装paddlespeech！！
强烈不建议使用源码编译或者pip等方式安装paddlespeech！！
强烈不建议使用源码编译或者pip等方式安装paddlespeech！！
原因就是官方缺少明确的PaddlePaddle和PaddleSpeech对应的兼容版本说明！这使得最新版本的PaddleSpeech最多只能兼容到Paddle的2.6.x的版本！！而在我的项目当中，如果使用Paddle2.6.X版本，就会和AutoGen所依赖的Protubuf版本产生冲突！这问题是无解的！

建议的替代方案：将PaddleSpeech单独部署成一个服务，使用官方已经集成好的PaddleSpeech镜像！！镜像地址PaddleSpeech官方镜像

拉取PaddleSpeech镜像

# CPU版本
docker pull paddlecloud/paddlespeech:develop-cpu-fb4d25
# GPU版本
docker pull paddlecloud/paddlespeech:develop-gpu-cuda10.2-cudnn7-fb4d25

注意GPU版本需要注意主机的CUDA的版本，否则会不兼容！

注意

PaddleSpeech的镜像只是给你装好了所需环境和依赖，并没有启动PaddleSpeech Server！！！！ 若要启动Server，还需要进入容器内部执行命令：

# 进入paddlespeech目录
cd paddlespeech
# 启动服务！！！
paddlespeech_server start --config_file ./server/conf/application.yaml

然后你就会看到服务启动成功，默认端口是8090：
在这里插入图片描述
把这个端口映射出去，就可以访问服务了！！

另附上PaddleSpeech Server的API
PaddleSpeech Server Restful API
PaddleSpeech Server Streaming API

本文章已经生成可运行项目