告别枯燥阅读:3分钟搭建你的AI有声书转换平台
你还在为没时间阅读而烦恼吗?通勤路上想"读"书却腾不出手?ebook2audiobook让任何电子书秒变高质量有声书,支持1110+种语言,还能克隆你喜欢的声音。本文将带你3分钟完成搭建,从此让眼睛休息,用耳朵"阅读"。
读完本文你将获得:
- 3种快速部署方案(本地/容器/云端)
- 全平台操作指南(Windows/macOS/Linux)
- 语音克隆与多语言转换技巧
- 常见问题解决方案
项目简介
ebook2audiobook是一款基于AI技术的电子书转有声书工具,利用XTTSv2、Bark、Vits等动态模型,支持章节分割、元数据生成和语音克隆功能。项目开源地址:README.md
核心特性:
- 📚 支持EPUB、PDF等20+电子书格式
- 🎙️ 1110+种语言的文本转语音
- 🔄 自动章节分割与元数据生成
- 🧠 支持自定义AI模型与语音克隆
- 💻 跨平台支持(Windows/macOS/Linux)
快速开始
系统要求
最低配置:
- 4GB RAM
- 支持Python 3.12的操作系统
- 网络连接(首次运行需下载模型)
推荐配置:
- NVIDIA GPU(加速转换速度)
- 8GB以上RAM
- 10GB空闲磁盘空间
本地部署(3分钟版)
Windows系统
- 克隆仓库
git clone https://gitcode.com/gh_mirrors/eb/ebook2audiobook.git
cd ebook2audiobook
- 双击运行启动脚本
ebook2audiobook.cmd
macOS/Linux系统
- 克隆仓库
git clone https://gitcode.com/gh_mirrors/eb/ebook2audiobook.git
cd ebook2audiobook
- 运行启动脚本
chmod +x ebook2audiobook.sh
./ebook2audiobook.sh
- macOS用户也可双击运行
Mac Ebook2Audiobook Launcher.command
启动成功后,浏览器会自动打开Web界面(http://localhost:7860)。首次运行会自动安装依赖和下载基础模型,可能需要5-10分钟。
Docker容器部署
快速启动(CPU版)
docker run --pull always --rm -p 7860:7860 athomasson2/ebook2audiobook
GPU加速版(NVIDIA显卡)
docker run --pull always --rm --gpus all -p 7860:7860 athomasson2/ebook2audiobook
Docker Compose部署
- 编辑配置文件启用GPU(可选)
# docker-compose.yml
services:
ebook2audiobook:
build: .
deploy:
resources:
reservations:
<<: *gpu-enabled # 改为*gpu-enabled启用GPU
- 启动服务
docker-compose up -d
容器部署优势:无需担心环境依赖,一键启动,适合服务器或多用户场景。
云端运行(无需本地配置)
Hugging Face Spaces
直接在浏览器中使用:Hugging Face Spaces
Google Colab
使用指南
基本操作步骤
-
上传电子书:点击界面上方的"上传电子书"按钮,支持EPUB、PDF、MOBI等20+格式。推荐使用EPUB格式获得最佳章节分割效果。
-
选择语音:在右侧语音设置面板选择内置语音,或上传音频文件进行语音克隆。
-
设置语言:从1110+种语言中选择目标语言,系统默认使用电子书原始语言。
-
开始转换:点击"生成有声书"按钮,等待转换完成。进度会实时显示在界面上。
-
下载结果:转换完成后,点击"下载"按钮获取有声书文件,支持MP3、M4B等多种格式。
高级功能
语音克隆
- 准备1-5分钟的清晰语音样本(WAV格式最佳)
- 在"语音设置"中点击"上传语音样本"
- 系统会自动分析语音特征,生成克隆语音
自定义AI模型
- 准备模型文件(需包含config.json、model.pth等必要文件)
- 压缩为ZIP格式
- 在"高级设置"中上传自定义模型
命令行模式
适合批量处理或服务器环境:
# 基础用法
./ebook2audiobook.sh --headless --ebook ./ebooks/test.epub --language zh
# 语音克隆
./ebook2audiobook.sh --headless --ebook ./book.epub --voice ./my_voice.wav
# 自定义模型
./ebook2audiobook.sh --headless --ebook ./book.epub --custom_model ./my_model.zip
更多参数请查看帮助文档:
./ebook2audiobook.sh --help
技术架构
核心模块
- 主程序入口:app.py
- 配置模块:lib/conf.py
- 语言处理:lib/lang.py
- 模型管理:lib/models.py
- 工具函数:lib/functions.py
依赖环境
项目基于Python 3.12开发,核心依赖包括:
- Gradio:提供Web界面
- Coqui TTS:语音合成引擎
- PyTorch:深度学习框架
- EbookLib:电子书解析
- FFmpeg:音频处理
完整依赖列表:requirements.txt
常见问题解决
性能优化
- GPU加速:确保已安装NVIDIA驱动和CUDA,Docker用户需使用
--gpus all参数 - 模型缓存:首次运行后模型会缓存到本地,后续使用无需重复下载
- 批量处理:使用命令行模式并添加
--batch_size参数提高效率
常见错误处理
- 依赖缺失:运行
pip install -r requirements.txt安装所有依赖 - 模型下载失败:检查网络连接,或手动下载模型放到
models/目录 - 转换中断:大型书籍建议拆分章节处理,或使用命令行模式断点续传
硬件要求不足
- 使用云端方案:Hugging Face Spaces或Google Colab
- 降低模型质量:在设置中选择"低资源模式"
- 增加系统内存:至少保证8GB RAM(推荐16GB以上)
结语
ebook2audiobook将AI语音技术与电子书处理完美结合,让任何人都能轻松将文字转换为高质量有声内容。无论是通勤路上的知识获取,还是视力障碍人士的阅读辅助,这款工具都能发挥重要作用。
项目仍在持续迭代中,欢迎通过以下方式参与贡献:
- 提交Issue报告bug或建议
- 贡献代码实现新功能
- 分享使用经验和教程
立即开始你的有声书之旅吧!如有任何问题,欢迎加入社区讨论或查阅完整文档。
喜欢这个项目?请给我们一个Star支持开发! 下期预告:如何训练专属语音模型
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考







