- 音频解析
1、amr音频格式最低的码率是4.75k ,最高是12.2k ,其实一般的采用9.75k的码率就可以了,既可以解决声音播放质量问题,也可以解决网络下载速度问题;
2、mp3格式是可以支持边下边播放的,分段切割播放,不需要对音频内容做提取;
3、amr也可以支持边下边播放,只是需要对音频进行编码参数的提取和插入就行;
4、VAD 检测目前最好用的还是webrtc工程里的源码;
6、wav转amr还是使用ffmpeg会好质量提高很多,使用opencoreamr编码库,或者3gp编码库,都会对音频之类产生影响,导致音频有滋滋声。
- 内容解析
1、目前内容方,科大讯飞的应该是最好的,其次就是海智智能;
2、人工大脑,例如图灵类等,只是提供交流,对内容的获取还是比较少;
3、可以采用爬虫,从baidu或者sougou的搜索结果里搜寻,sougou的内容比baidu少很多,但是速度快了1被,baidu的内容还是缺少很多;bing不支持快照,不能使用,google代理服务器,时候国外使用;
- 语音识别引擎
1、目前用过的是百度,阿里,讯飞,总体来说百度的最便宜,免费,其他家的都需要收费;
2、总效果来说,阿里支持连续语音,可以使用智能电话呼叫机器人;讯飞就是识别速度快;
- linux服务器语音TTS引擎
1、目前使用的是百度,因为免费,但是在线的;
2、使用过余音的tts,但是发言不标准,放弃;
3、讯飞的速度还是很快的,但是离线版本要收费,放弃;阿里的也是收费,放弃。
4、英文的tts就很多了,中文开源还是没有。