
语音识别与语音合成
文章平均质量分 62
皮熊
这个作者很懒,什么都没留下…
展开
-
深入浅出K-Means算法
这两天cmusphinux的声学模型训练,一直未成功。今天终于搞清楚了失败的的原因,是Too few observations for kmeans.对应源代码vim /home/ppeix/Downloads/sphinxtrain-1.0.7/src/programs/kmeans_init/main.c中cluster函数返回失败。如何解决这个问题,直观理解应当是获取足够多的训练数据原创 2014-03-29 16:28:47 · 727 阅读 · 0 评论 -
成功移植语音识别功能到rovio
将rbx1_speech从hydro 迁移到miniPC上的:~/ros_workspace/install/lib原创 2014-09-29 11:19:39 · 702 阅读 · 0 评论 -
wav格式 常识
wav格式对于编码没有硬性规定。原创 2014-09-30 14:21:40 · 4183 阅读 · 0 评论 -
qbo julius增加自己的grammar方法
官方教程:http://openqbo.org/wiki/doku.php?id=qbo_apps:ros_pack:qbo_listen论坛方法:http://openqbo.org/forum/viewtopic.php?f=5&t=474&sid=4ad0273c3fec2267bbb53fca9e243246 creating a new grammar for speech原创 2014-10-11 14:46:15 · 539 阅读 · 0 评论 -
python 实现中文分词功能
今天按计划实现了语音识别准备工作之中文分词。当然,原创 2014-11-06 17:17:10 · 1027 阅读 · 0 评论 -
ac97与intel HD audio
1.从上表可以看出,第1、2、3、5、9虽然名字有所变化,其功能没有改变。这就可以使HD Audio前置音频插座与AC97的前置音频面板兼容。2.There is only one problem with the terminations of the audio cable, and it is that the two terminations are of the same color原创 2015-01-27 15:54:54 · 1406 阅读 · 0 评论 -
xmms debug
XMMS2 is a different program to XMMS.It's more like MPD than it is like XMMS.XMMS = X MultiMedia SystemXMMS2 = X Music Multiplexing SystemThis error happens when there is already an inst原创 2015-01-28 15:38:23 · 723 阅读 · 0 评论 -
语音服务器端内存泄露
INFO: tmat.c(205): Reading HMM transition probability matrices: /usr/local/share/pocketsphinx/model/hmm/tdt_sc_8kadapt/transition_matricesINFO: acmod.c(117): Attempting to use SCHMM computation modu原创 2015-01-07 11:59:49 · 731 阅读 · 0 评论 -
ubuntu12.04升级内核
ppeix:sound$ vim ./pci/hda/patch_realtek.cppeix:sound$ modinfo snd_hda_codecfilename: /lib/modules/3.13.0-32-generic/kernel/sound/pci/hda/snd-hda-codec.kolicense: GPLdescription:原创 2015-02-05 14:35:51 · 517 阅读 · 0 评论 -
"There is not a valid medialib id!"与解析wav文件格式
使用xxd命令将文件转换为16进制文本。然后观察header字节格式。header info:AVE文件格式说明表 偏移地址 字节数 数据类型 内 容 文件头00H 4 char "RIFF"标志 04H 4 long int 文件长度 08H 4 char "WAVE"标志 0CH 4 char "fmt"标志 10H 4 过渡字节(不定) 14原创 2015-02-09 11:10:09 · 557 阅读 · 0 评论 -
xmms2使用笔记
couldn't set volume,解决办法:命令行执行xmms2,然后添加一首歌曲到playlist,就会停掉该打印,设置音量和获取音量接口均ok。如何自动添加到playlist呢,upload之后会有一个报错:There is not a valid medialib id! 这个就是问题所在了。1.不能以root运行。加参数可以解决:xmms2d --yes-r原创 2015-02-09 11:09:25 · 628 阅读 · 0 评论 -
espeak和mbrola
eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.netespeak是语音合成工具。mbrola是语音文件。从text到phoneme转换由espeak完成。原创 2015-02-10 15:36:48 · 2125 阅读 · 0 评论 -
边采集边上传
其实,本地录音,上传到服务器,获取语音识别结果的过程,就是边采集,边上传,边获取相应包的过程。有一个android的讨论:http://www.apkbus.com/android-44735-1-1.html难点在于如何将microphone的数据实时传递到服务器,服务器端如何识别实时语音流并返回识别的结果。其他参考:http://blog.youkuaiyun.com/lvjunwoaini/原创 2015-01-07 11:33:27 · 1058 阅读 · 0 评论 -
pyaudio+pocketsphinx
参考例程:https://pythonism.wordpress.com/2013/06/06/pocketsphinx-voice-recognition-with-python/其他参考:http://blog.youkuaiyun.com/u013000753/article/details/46344567https://github.com/mondhs/lt-pocketsphinx-tu原创 2015-09-27 22:57:57 · 1205 阅读 · 0 评论 -
智能问答系统
突然想到有这个需求。但没想到如何描述原创 2014-09-30 16:37:34 · 2475 阅读 · 0 评论 -
语音识别和合成在不同机器人软件架构中的位置
Python--生成Wav格式文件需要安装Tkinter,用于GUI显示需要安装Scipy, 科学计算原创 2014-09-28 16:11:47 · 723 阅读 · 0 评论 -
什么是MFCC参数
在语音识别工作中,我们最经常会遇到的特征就是MFCC参数。它的出现,仿佛让大家看了一种放之四海而皆准的特征,在不同的语音处理工作中都可以比较好的发挥其作用。 相比通过对人的发声机理的研究而得到的声学特征LPC,Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的转载 2014-11-10 08:41:55 · 2675 阅读 · 0 评论 -
cmu语音识别与语音合成
http://www.speech.cs.cmu.edu/hephaestus.htmlSpeech RecognitionCMU Sphinx a collection of real-time speech recognition enginesSphinxTrain an acoustic model trainer and documentation for buildin原创 2014-03-29 18:24:47 · 1900 阅读 · 0 评论 -
ROS语音合成代码学习
ROS语音合成的功能试用了一下,对于英文还是蛮方便的。然后分析了代码实现。应用程序代码在ros安装路径下即有:talkback.py: libsoundplay库和soundplay_node需要另行下载源码:https://github.com/ros-drivers/audio_common.git ppeix:audio_common$ lltotal 36drw原创 2014-04-03 13:37:16 · 1454 阅读 · 0 评论 -
初探GStreamer
http://blog.youkuaiyun.com/shallon_luo/article/details/4227212近日准备把linux手机平台上的各大软件模块都浮光掠影蜻蜓点水的学习一遍,今天看到了多媒体处理模块,不得不去学习一下GStreamer。 GStreamer,江湖上人称“PIPELINE式的多媒体处理框架”,在该媒体处理框架将多媒体数据流处理划分成各种能够自由组合重用转载 2014-04-04 17:19:37 · 1171 阅读 · 0 评论 -
ubuntu 录音软件audacity 安装和使用
使用HTK过程中,第一步录音和标签功能时,提示找不到/dev/dsp。显然只有旧的内核才支持原创 2014-04-21 16:37:29 · 7042 阅读 · 0 评论 -
HTK tutorials
mkdir data/{train/{lab,wav,mfcc},test/{lab,wav,mfcc}} -pmkdir analysis training model def test原创 2014-05-15 10:09:54 · 618 阅读 · 0 评论 -
ubunutu12.04上进行julius编译
研究julius源码的时候,分为三部分libjulius,libsent和原创 2014-07-16 09:35:03 · 1062 阅读 · 0 评论 -
音视频编解码过程
当初看VLC代码花了不少时间,其中很大的原因是不太了解视频播放的基本原理。现在看来,几乎所有的视频播放器,如VLC、MPlayer、Xine,包括DirectShow,在播放视频的原理和架构上都是非常相似的,理解这个对理解VLC的源码会有事半功倍的效果。 大致的来说,播放一个视频分为4个步骤: 1. acess 访问,或者理解为接收、获取、得到 2. demux 解复转载 2014-07-04 11:30:27 · 3017 阅读 · 0 评论 -
音频制作与转换—WAV音频文件
音频制作与转换—WAV音频文件在音视频制作或转换中,常需要面临如下选择:是否选择WAV这种音频文件格式;选择何种编码格式;如何设置采样频率(Hz、kHz)、采样精度(bit)、码率(kBps、比特率、位速率、数据传输率)等。对于非专业人士来讲,了解这些是必须的(但无需深刻理解,也不可能深刻理解)。本文力图以通俗的语言来解释这些东西的基本常识。纯属个人理解,绝非权威解释。转载 2014-07-04 11:30:45 · 3844 阅读 · 0 评论 -
Alsa驱动分析
查看原文目录1. Abstract2. Introduction3. 音频驱动框架介绍3.1 音频设备的注册3.2 音频驱动的注册3.2.1 Probe函数的调用3.2.2 Soc_probe函数4. 通常的使用流程的分析4.1.1 open过程介绍4转载 2014-07-04 16:20:10 · 561 阅读 · 0 评论 -
PocketSphinx语音识别系统----声学模型的训练与使用
The good ways to obtain a database for a new language are:Manually segment audio recordings with existing transcription (podcasts, news, etc)Record your friends and family and colleagues原创 2014-03-27 08:42:00 · 1274 阅读 · 0 评论 -
Pocketsphinx语音识别-----语言模型训练和声学模型的适应过程
训练语言模型:两种方法1.对于小文本量&&英文,直接采用登录网站方式来生成语言模型lm和字典dic利用在线工具LMTool建立语言模型,具体网址:http://www.speech.cs.cmu.edu/tools/lmtool-new.html2.其他情况,比如大数据量的或中文,需要采用如下方法来生成语言模型。输入:语料文本输出: arpa或dmp文件。可相互转换。原创 2014-03-25 16:57:48 · 3427 阅读 · 0 评论 -
Pocketsphinx语音识别--使用流程, 安装,使用
PocketSphinx是一个计算量和体积都很小的嵌入式语音识别引擎。在Sphinx-2的基础上针对嵌入式系统的需求修改、优化而来,是第一个开源面向嵌入式的中等词汇量连续语音识别项目。识别精度和Sphinx-2差不多。 Sphinx-3是CMU高水平的大词汇量语音识别系统,采用连续隐含马尔可夫模型CHMM建模。支持多种模式操作,高精度模式扁平译码器,由Sphinx3的最初版转载 2014-03-26 10:33:51 · 1817 阅读 · 0 评论 -
ros语音识别功能库安装过程总结
pocketspinx地址: https://github.com/mikeferguson/pocketsphinx.git hydro-le原创 2014-07-16 09:35:44 · 1509 阅读 · 0 评论 -
Pocketsphinx语音识别--重新训练声学模型
研究如何提高识别率 的问题。1.重新训练。找到正确的训练方法。工具:http://sourceforge.net/projects/cmusphinx/files/依次下载最新版的:Pocketsphinx —用C语言编写的轻量级识别库,主要是进行识别的。Sphinxbase — Pocketsphinx所需要的支持库,主要完成的是语音信号的特征提取;C原创 2014-03-26 11:08:23 · 2129 阅读 · 0 评论 -
pocketsphinx_continuous源码安装方式及问题解决
make[2]: 正在进入目录 `/home/runji/pocketsphinx-0.7/src/libpocketsphinx'/bin/bash ../../libtool --tag=CC --mode=compile gcc -DPACKAGE_NAME=\"pocketsphinx\" -DPACKAGE_TARNAME=\"pocketsphinx\" -DPACKAGE_V原创 2014-09-17 15:36:15 · 1394 阅读 · 0 评论 -
speech or no speech detection
http://python.developermemo.com/668_18026120/ speech or no speech detectionimport audioopimport pyaudio as paimport wavclass speech(): def __init__(self): # soundtrack properties原创 2015-09-27 23:10:19 · 1410 阅读 · 0 评论