首先说明,本人只擅长在windows下开发。这次是因为公司需要做语音识别,采用wav2letter开源框架,所以在linux下搞一搞,如果有不对的地方还请指正。
先说下电脑配置: OS: Ubuntu16.04 GPU:Nvidia GTX 1060 5GB CPU : intel i7
os:ubuntu18.04 GTX1080Ti 安装先看下一篇中的注意事项
https://mp.youkuaiyun.com/postedit/89088082
facebook号称wav2letter是目前最快的语音识别系统,我没研究过别的语音识别,不知道它的快慢是什么程度,到后面我会把训练时间和识别速度贴出来。
我是运行的CUDA版本wav2letter,要运行CPU和opencv版本的同学请绕过。
按照作者介绍需要安装一下工具:
arrayfire,flashlight,libsndlife,MKL,KenLM,gflags,glog,CUDA,cudnn等
我这里把我的安装顺序说一下,因为我电脑里以前是做图像识别时配置的环境,在此基础上,安装作者的说明开始安装,结果在安装编译完wav2letter,准备训练的时候,总是提示,找不到或打不开flac文件(语音训练数据包)。安装了好几遍,还是这个问题,一怒之下,重装系统。所以我的环境是从干净的ubuntu系统开始安装。
一、安装ubuntu系统以及安装Nvidia驱动,CUDA,CUDNN参考我前面的那篇文章https://blog.youkuaiyun.com/tudou880306/article/details/81076000.
需要注意的时,作者要求CUDA>=9.2,作者推荐在CUDA9.2上安装。这个会影响到arrayfire的安装.
二、其它软件包安装
我是倒着安装的,什么意思?就是先下载wav2letter源码下来,然后cmake.. 配置环境,看看缺什么装什么。当然刚开始缺的是cmak