pyaudio+pocketsphinx

最新推荐文章于 2024-10-11 07:00:55 发布

皮熊

最新推荐文章于 2024-10-11 07:00:55 发布

阅读量1.2k

点赞数

分类专栏：语音识别与语音合成

本文链接：https://blog.youkuaiyun.com/ppp2006/article/details/48770319

版权

语音识别与语音合成专栏收录该内容

33 篇文章

订阅专栏

本文提供了一个详细的指南，使用Pocketsphinx库在Python中实现语音识别功能，包括初始化模型、录制音频流、解析语音命令并执行相应操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

 
 参考例程：https://pythonism.wordpress.com/2013/06/06/pocketsphinx-voice-recognition-with-python/ 
 
           
 其他参考：http://blog.youkuaiyun.com/u013000753/article/details/46344567
 https://github.com/mondhs/lt-pocketsphinx-tutorial/tree/master/impl/demo-py/public_service 立陶宛Lithuanian
 功能点：pyaudio录音。音频流。
 importsys,os
 importpyaudio
 importwave 

    
 
 hmdir 
 = 
 &quot; 
 / 
 usr 
 / 
 share 
 / 
 pocketsphinx 
 / 
 model 
 / 
 hmm 
 / 
 wsj1&quot; 
 
 lmd   
 = 
 &quot; 
 / 
 usr 
 / 
 share 
 / 
 pocketsphinx 
 / 
 model 
 / 
 lm 
 / 
 wsj 
 / 
 wlist5o. 
 3e 
 - 
 7.vp 
 .tg.lm.DMP&quot; 
 
 dictd 
 = 
 &quot; 
 / 
 usr 
 / 
 share 
 / 
 pocketsphinx 
 / 
 model 
 / 
 lm 
 / 
 wsj 
 / 
 wlist5o.dic&quot; 

    
 
 def 
 decodeSpeech(hmmd,lmdir,dictp,wavfile): 

    
 
      
 import 
 pocketsphinx as ps 
 
      
 import 
 sphinxbase 

    
 
      
 speechRec 
 = 
 ps.Decoder(hmm  
 = 
 hmmd, lm  
 = 
 lmdir,  
 dict 
 = 
  dictp) 
 
      
 wavFile 
 = 
 file 
 (wavfile, 
 'rb' 
 ) 
 
      
 wavFile.seek( 
 44 
 ) 
 
      
 speechRec.decode_raw(wavFile) 
 
      
 result 
 = 
 speechRec.get_hyp() 

    
 
      
 return 
 result[ 
 0 
 ] 

    
 
 CHUNK 
 = 
 1024 
 
 FORMAT 
 = 
 pyaudio.paInt16 
 
 CHANNELS 
 = 
 1 
 
 RATE 
 = 
 16000 
 
 RECORD_SECONDS 
 = 
 10 

    
 
 for 
 x  
 in 
 range 
 ( 
 10 
 ): 
 
      
 fn 
 = 
 &quot;o&quot; 
 + 
 str 
 (x) 
 + 
 &quot;.wav&quot; 
 
      
 p 
 = 
 pyaudio.PyAudio() 
 
      
 stream 
 = 
 p. 
 open 
 ( 
 format 
 = 
 FORMAT 
 , channels 
 = 
 CHANNELS, rate 
 = 
 RATE, 
 input 
 = 
 True 
 , frames_per_buffer 
 = 
 CHUNK) 
 
      
 print 
 (&quot; 
 * 
 recording&quot;) 
 
      
 frames 
 = 
 [] 
 
      
 for 
 i  
 in 
 range 
 ( 
 0 
 , 
 int 
 (RATE 
 / 
 CHUNK  
 * 
 RECORD_SECONDS)): 
 
          
 data 
 = 
 stream.read(CHUNK) 
 
          
 frames.append(data) 
 
      
 print 
 (&quot; 
 * 
 done recording&quot;) 
 
      
 stream.stop_stream() 
 
      
 stream.close() 
 
      
 p.terminate() 
 
      
 wf 
 = 
 wave. 
 open 
 (fn, 
 'wb' 
 ) 
 
      
 wf.setnchannels(CHANNELS) 
 
      
 wf.setsampwidth(p.get_sample_size( 
 FORMAT 
 )) 
 
      
 wf.setframerate(RATE) 
 
      
 wf.writeframes(b''.join(frames)) 
 
      
 wf.close() 
 
      
 wavfile 
 = 
 fn 
 
      
 recognised 
 = 
 decodeSpeech(hmdir,lmd,dictd,wavfile) 
 
      
 print 
 recognised 
 
      
 cm 
 = 
 'espeak &quot;' 
 + 
 recognised 
 + 
 '&quot;' 
 
      
 os.system(cm)