在已经训练好模型的情况下,需要针对一个新任务做在线识别应该怎么做呢?
一种情况是,用已有的声学模型和新训练的语言模型。
语言模型可以同srilm等工具训练,但是怎样将语言模型与DNN声学模型一起来进行识别的。
SRILM可以用来训练ARPA格式的LM,假设train.txt是语料,wordlist是词汇,假设语言模型的字典和识别器的字典一样,可以按如下办法训练LM
ngram-count -text train.txt -order 3 -limit-vocab -vocab wordlist -unk \
-map-unk "<unk>" -kndiscount -interpolate -lm srilm.o3g.kn.gz
然后通过下面的命令将ARPA格式的LM转化成WFST格式