语音信号处理ASP到语音识别ASR和自然语言处理NLP
语音信号处理ASP
语音信号处理Audio signal process泛指针对语音采样、编解码、语音增强、语音传输等领域的偏重于数字信号处理方面的统称。因为编解码部分很多都已经标准化了,所以语音信号处理狭义上往往所指语音增强部分的算法和实现。
语音识别ASR
语音识别Automatic Speech Recognation是将输入的语音经过系统处理后,转化为文字的系统过程,传统的流行方式GMM-HMM,深度神经网络融合进来之后,通过替换原来的GMM模型,实现了DNN-HMM,逐渐的被神经网络完全替换,变成了一个以神经网络为核心的衍生学科。较之传统的语音信号处理,语音信息提取部分还是需要继承和发扬光大的。另外,在多mic阵列和语音增强方面,也有DNN模型融入进来,大大提升了传统算法的性能。
自然语言处理NLP
自然语言处理Natrue Language Process严格来说与语音信号处理关系不大,但在语音分析和语言模型等方面和语音识别有很强的耦合关系和知识共享。这部分更偏重于文字处理方面,当然与语音识别结合之后,就是完整的语音语义识别分析系统,是人工智能的发展不可或缺的一部分。
从传统的语音信号处理领域跨入人工智能驱动的语音语言学领域,从知识积累的角度,ASR是一个不错的起点,NLP差不多要全新来过了。学以致用来说,用啥学啥亦可。
安装nltk
安装python3.7
sudo apt-get install build-essential checkinstall
sudo apt-get install libreadline-gplv2-dev libncursesw5-dev libssl-dev
libsqlite3-dev tk-dev libgdbm-dev libc6-dev libbz2-dev libffi-dev
cd /usr/src
sudo wget https://www.python.org/ftp/python/3.7.3/Python-3.7.3.tgz
sudo tar xzf Python-3.7.3.tgz
cd Python-3.7.3
sudo ./configure --enable-optimizations
sudo make altinstall
查询版本
python3.7 -V
可以用alternatives工具管理多个python
sudo update-alternatives --install /usr/bin/python python /usr/local/lib/python2.7 100
sudo update-alternatives --install /usr/bin/python python /usr/local/lib/python3.2 150
sudo update-alternatives --config python
也可以直接用python3.7来启动,我的电脑python 默认python2,python3是python3.4。btw,版本太多是python的滥觞。
pip遇到的问题
再用pip3.7安装的时候,遇到了一个问题,提示:
pip is configured with locations that require TLS/SSL
openssl的版本为OpenSSL 1.0.1,而python3.7需要的openssl的版本为1.0.2或者1.1.x,需要对openssl进行升级,并重新编译python3.7.4。原来安装的openssl 版本都比较低,
wget https://www.openssl.org/source/openssl-1.1.1c.tar.gz
tar -zxvf openssl-1.1.1c.tar.gz
cd openssl-1.1.1c
./config shared
make
make test
make install
再重新安装一遍python,问题得到解决。
安装nltk和nltk data
pip3.7 install nltk
安装好,进入python3.7.4。
import nltk
nltk.download()
会出现下载界面,但在ubuntu默认会提示SSL:CERTIFICATE_VERIFY_FAILED,这是因为pyhon升级到2.7.9以后,引入了一个新特性,当使用urllib打开https的链接时,会检验一次ssl证书。而当目标网站使用的是自签名证书时,就会抛出urllib2.URLError的错误。对于学习项目来说,直接取消全局证书验证即可:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
之后就可以下载nltk data了。
下载完毕之后,用下面的命令检查nltk的工具
>>> from nltk.book import *
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908
有了nltk,对于学习nlp来说,有了一个实验平台,事半功倍
5万+

被折叠的 条评论
为什么被折叠?



