BlahST项目语音转录脚本安装与配置指南
项目背景
BlahST是一个开源的语音转录工具集,主要包含wsi和wsiml等脚本工具,能够实现实时语音录制和转录功能。该项目支持本地whisper.cpp部署和whisperfile轻量级方案,适用于Linux桌面环境。
核心组件解析
1. 主要脚本功能
- wsi:基础语音转录脚本
- wsiml:支持多语言转录的扩展版本
- wsiAI:集成llama.cpp/llamafile的AI增强版本
2. 依赖组件
- sox:音频录制工具
- whisper.cpp/whisperfile:语音识别引擎
- xsel/wl-copy:剪贴板管理工具
- xdotool(可选):自动粘贴功能支持
安装过程详解
标准安装流程
- 执行安装脚本:
bash install-wsi
- 脚本会自动:
- 创建~/.local/bin目录
- 复制执行脚本到目标路径
- 检查sox等依赖项
配置选项
安装过程中会提示选择识别引擎:
- 本地whisper.cpp安装(Y)
- 网络whisper.cpp服务(N)
- whisperfile轻量方案(N)
常见问题解决方案
1. 路径问题
若遇到"required file not found"错误:
- 手动检查~/.local/bin是否在PATH中
- 确认使用完整路径执行:
bash ~/.local/bin/wsi
2. 音频录制问题
当出现快速闪退时:
- 检查/dev/shm/wfile录音文件
- 调整麦克风灵敏度
- 设置停止录音热键:
pkill --signal 2 rec
3. 性能优化建议
- 对于CUDA设备,建议使用编译版whisper.cpp
- whisperfile用户可使用
--recompile
参数优化CUDA支持 - 网络服务模式可获得最佳性能(约90倍实时转录速度)
高级功能配置
自动粘贴功能
编辑脚本CONFIG区块:
AUTOPASTE=true # 启用自动粘贴
热键设置
推荐配置:
- 开始录音:自定义全局热键
- 停止录音:绑定到
pkill --signal 2 rec
使用技巧
- 初次测试命令:
wsi -c -w
(使用剪贴板模式和whisperfile) - 终端调试时可取消注释脚本中的echo语句
- 对于X11环境,确保安装xsel剪贴板工具
- 敏感麦克风需精细调整阈值参数
性能考量
- whisperfile使用tinyblass基础CUDA实现,性能中等
- 编译版whisper.cpp可获得最佳GPU加速
- CPU使用率取决于模型大小和硬件配置
该项目为语音转录提供了灵活的解决方案,用户可根据硬件条件选择适合的运行模式。通过合理配置,可以实现高效的实时语音转录体验。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考