语音识别
文章平均质量分 79
eric88
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
语音怎么变文字的
首先说一下作为输入的时域波形。我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件,比如Windows PCM文件,即wav文件来处理。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。采样率越大,每毫秒语音中包含的点的个数就越多。另外声音有单通道双通道之分,还有四通道的等等。对语音识别任务来说,单通道就足够了,多了浪费,因此一般要把声音转成转载 2013-11-28 22:43:28 · 4239 阅读 · 0 评论 -
Windows 安装HTK3.4.1语音识别工具
此文根据http://blog.youkuaiyun.com/xiaoding133/article/details/6745981原文修改而成,只是修改了部分我们自己遇到的问题,首先下载HMM 的开发包HTK,现在的版本是3.4.1.可以从CMU的官网进行下载。http://htk.eng.cam.ac.uk/,下载后解压HTK工具包,我解压后的目录为:D:\htk\ 确保的环境变量Path转载 2013-11-28 23:41:03 · 1593 阅读 · 0 评论 -
隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的转载 2013-12-01 23:31:50 · 773 阅读 · 0 评论 -
声音、音频采样率、采样精度等常识概念
什么是声音?能量波,有频率有振幅,频率高低就是音调,振幅大小就是音量;采样率是对频率采样,采样精度是对幅度采样人耳能听到的频率范围是200-20KHz,什么是CODEC?音频压缩CO+解压缩DEC,CODEC就是多媒体数字信号编解码器,主要负责DAC和ADC。不管是音频加速器好,还是I/O控制器好,他们输入输出的都是纯数字信号,我们要使用声卡上的转载 2013-12-03 17:11:12 · 14495 阅读 · 1 评论 -
7个开源的TTS(文本转语音)系统推荐
TTS(Text To Speech,文本转语音)是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS可以帮助有视觉障碍的人阅读计算机上的信息,或者只是简单的用来增加文本文档的可读性。TTS经常与声音识别程序一起使用。本文主要介绍7款开源的TTS系统,你可以用来学习,也可以在你的项目中使用。 1.MARY - Text-to-Spee转载 2013-12-03 17:21:27 · 4858 阅读 · 0 评论 -
开源语音识别软件
开源语音识别软件simon的第一个测试版已经发布,simon用Julius作实际的语音识别处理引擎,HTK toolkit作为主要的语言模型。这些组件被一个易于使用的图形用户界面连接在一起。simon能够直接输入wiktionary(维基百科的子项目)词典,或者是将个人文本转换成HADIFIX或HTK格式和文法结构后导入。它还提供了一种方法,用新样本和新文字训练语言模型。http://source转载 2013-12-03 16:41:33 · 3953 阅读 · 0 评论 -
四款python中文分词系统简单测试
四款python中文分词系统简单测试:注:中科院分词可采用调用C库的方式使用纠正下:中科院分词2012支持关键词提取准确率测试(使用对应项目提供在线测试,未添加用户自定义词典)结巴中文分词http://209.222.69.242:9000/中科院分词系统http://ictclas.org/ictclas_demo.html转载 2013-12-16 23:57:35 · 10117 阅读 · 0 评论
分享