
ASR | 深度语音
文章平均质量分 75
已经落地的语音识别项目相关知识整理,
正在写电子书:taorui-plus.github.io/Chinese-ASR-gitbook,
欢迎访问
优惠券已抵扣
余额抵扣
还需支付
¥49.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
声纳咸鱼の声学实验室
本实验室常年供应:掉san值的音频波形图、薛定谔的识别准确率、以及深夜debug时的哲学三连。注:本咸鱼已通过ISO9001国际摸鱼认证,持续掉发中。
展开
-
端到端语音识别系统发展及现状 | LAS、RNN-T、NT、MochA
文章目录1.传统 ASR2.端到端 ASR3.端到端ASR的发展历程3.1 CTC3.2 基于CTC的端到端ASR3.3 CTC的缺点4.基于attentiion的encoder-decoder模型5. Online 模型介绍(RNN-T, NT, MoChA)5.1 模型配置5.2 数据5.3 结果5.4 组合方式5.5 进一步的提升5.5.1 结构上的改进Wordpiece Model多头attention5.5.2 优化方式的改进最小字错率(MWER)预定采样同步异步训练标签平滑5.5.3 外部语言模原创 2020-07-22 17:51:37 · 4475 阅读 · 2 评论 -
人脸识别 + 语音识别实现智能电话会议 | python demo
把最近的调研demo整理出来,实现智能电话会议,我提供两个核心的web服务,一个是人脸识别实现身份确认,一个是语音识别实现会议内容实时转写。预备知识python 写一个静态服务(实战)python3.6 编程技巧总结opencv实现猫脸识别一、实现流程二、身份确认-人脸识别技术框架这是一个轻量级的人脸识别服务上传一张照片,它会返回...原创 2018-02-07 10:20:45 · 5331 阅读 · 4 评论 -
deepspeech训练过程中遇到的一些问题和解决方案
文章目录一、语音识别为什么要用CNN二、rnn层使用的坑1. 我自己使用:keras实现的GRU2. mozilla:deepspeech使用3. tensorflow官方推荐:tf.contrib.cudnn_rnn三、Batch Normalization批标准化的坑四、优化器选择五、权重初始化的方式六、ctc损失函数的调用1. baidu的ctc-warp接口说明ctc入参模型入参2. go...原创 2019-11-15 12:07:52 · 2759 阅读 · 0 评论 -
【语音识别】- 几个主流模型 - 2024 - 附论文地址和源码地址
损失函数:同时使用CTC和AED的输出,可以提高识别率,但是由于AED本身是非流式的解码,在Wenet中,则没采用联合解码的方式,而是采用了先使用CTC解码,再用AED对CTC的Nbest结果进行Rescoring,这样即结合了两种模型的效果,又可以应用于流式场景。流式计算:标准的Fully self-attention会对依赖整个序列,不能进行流式计算,因此wenet采用了基于chunk的attention,将序列划分为多个固定大小的chunk,每个chunk内部的帧不会依赖于chunk右侧的帧。原创 2024-03-02 19:07:15 · 1854 阅读 · 0 评论 -
【语音识别】- CTC损失计算的原理
文章目录1.符号定义与目标函数2.前向计算 αs(t)\alpha_s(t)αs(t)1) 问题分析2) 动态规划解题3.后向计算 βs(t)\beta_s(t)βs(t)4.正向传播5.反向传播CTC全称:Connectionist temporal classification, 主要用于处理序列标注问题中的输入与输出标签的对齐问题。文章来源:点我1.符号定义与目标函数AAA: 序列标注任务中的标签所在字母表集合为 AAAA′A'A′: 扩展的字母表集合。CTC的softmax 输原创 2024-02-28 15:57:35 · 390 阅读 · 0 评论 -
关于ISI、SCI、EI、IEEE、Elsevier、Springer的理解
1、关于会议组织者、出版商、科研工作者的关系会议组织者:可能是某个学校;也可能是某个组织;他们为学术/经济利益举办会议,从科研工作者处收文章,收注册费;然后将论文集扔给出版商;出版商:具备一定声望,比如Elsevier/IEEE/Springer,他们旗下有一些会议论文的项目,比如Elsevier的Procedia(新推出的),IEEE的Conference Program,Springer的Lecture Notes系列;这些会议项目的共同特点是:1.拿论文的版权;2.向会议组织者收取出版费用(转载 2021-07-28 14:50:07 · 2108 阅读 · 0 评论 -
Couple Learning 模型代码开源 | DCASE | 声音事件监测 | 半监督
欢迎访问,点赞https://github.com/Toshiba-RDC/dcase20_task4原创 2021-10-11 16:57:18 · 939 阅读 · 0 评论 -
google 语音处理方向近期paper | 2021.8.8
@inproceedings{50574,title = {Less Is More: Investigating the Role of Label Context in RNN-T},author = {Rohit Prabhavalkar and Yanzhang (Ryan) He and David Johannes Rybach and Sean Campbell and Arun Narayanan and Trevor Deatrick Strohman and Tara N Saina原创 2021-08-08 18:52:55 · 608 阅读 · 0 评论 -
整理 | 计算机听觉领域可以考虑发哪些期刊会议
主要基于同行评议,并参考CCF列表、SCI、EI、SSCI、C刊、中文核心等文章目录音频类可投稿期刊会议(领域关联度:最重要)(一)CCF列表(二)非CCF列表但同行认可人工智能类可投稿期刊会议(领域关联度:较重要)中文相关可投稿期刊会议(领域关联度:较重要)音频类可投稿期刊会议(领域关联度:最重要)(一)CCF列表IEEE/ACM Transactions on Audio, Speech, andLanguage Processing(TASLP,CCF-B类期刊,SCI)IEEE Inter原创 2021-07-26 16:09:03 · 1157 阅读 · 1 评论 -
如何发表一篇计算机领域的顶会论文
文章目录背景什么是顶会期刊/会议简介写作经验分享投稿与修改阶段回复修改意见背景最近半个月,对之前发表的一篇顶会论文进行了修改,并重新提交了。这篇论文是一篇计算机领域的A会文章。本篇文章主要对计算机领域论文写作及发表过程中的相关经验做一个总结。希望可以对研究生小白们有点用。刚刚进入研究生阶段的同学,对论文的级别,例如:什么A类、B类、C类了,什么顶会了;期刊又分一堆类别,可能开始对这些概念都很混乱,也不知道那些好,哪些不好。下面先祭出CCF对期刊、会议的官方分类!又需要的小伙伴,可以直接在这个网页中找自转载 2021-06-18 14:32:59 · 7411 阅读 · 1 评论 -
deepspeech 笔记
为了回馈广大粉丝和订阅者,在以前的笔记中看到些或许对大家有用的信息,贴到这里,希望能对大家有帮助。文章目录几个模块几份数据几篇论文几张截图几个模块声学模型主要用来构建输入语音和输出声学单元之间的概率映射关系;语言模型用来描述不同字词之间的概率搭配关系,使得识别出的句子更像自然文本;解码器负责结合声学单元概率数值和语言模型在不同搭配上的打分进行筛选,最终得到最可能的识别结果几份数据1.希尔贝壳2018年6月开源1000小时中文普通话语音数据(学术申请):http://www.aishellt原创 2021-04-26 22:17:27 · 706 阅读 · 0 评论 -
centOS7环境下kaldi安装步骤
官网下载kaldi:git clone http://github.com/kaldi-asr/kaldi.gitcd kaldi/tools,执行它查看缺少哪些底层依赖:extras/check_dependencies.sh按指示安装依赖:yum install gcc-c++ make automake autoconf patch bzip2 unzip wget sox gcc-gfortran libtool subversion python3 zlib-devel zlib-devel.原创 2021-01-12 18:16:30 · 1097 阅读 · 0 评论 -
整理一下神经网络结构图
RNN普通RNN有不能处理长依赖的问题LSTM循环单元有着一种不同的结构。里面不再是只有单一的神经网络层,里面有四个层,并且他们都以非常简单的方式起作用。GRU它组合了遗忘门和输入门到一个单独的“更新门”中。它也合并了cell state和hidden state,并且做了一些其他的改变。...原创 2020-07-09 21:15:08 · 1947 阅读 · 0 评论 -
语音增强方法
论文:https://arxiv.org/pdf/1904.08779.pdf要点:我们构建了一个直接作用于对数梅尔频谱图的增强策略,以帮助网络学习有用的功能。 出于以下目的的动机:这些功能应对时间方向的变形,频率信息的部分丢失以及小部分语音片段具有较强的鲁棒性,因此,我们选择了以下变形来制定策略:1.使用tensorflow的sparse_image_warp函数进行时间扭曲。给定具有τ个...原创 2019-12-21 14:45:00 · 3105 阅读 · 6 评论 -
n-gram语言模型的生成过程及原理
文章目录一、简单说明二、执行过程1.拿到文本2.分词处理 text3.生成n-gram统计文件4.生成语言模型5.转为二进制文件6.生成trie文件7.结果分析三、生成原理1.增加``和``标记符,表示句子的开头和结尾。2.映射ID3.Counting4.Adjusting5.Discounting。6.Normalization7.Interpolation一、简单说明常用的N-gram训练...原创 2019-12-11 16:56:49 · 3625 阅读 · 0 评论 -
基于tensorflow和deepspeech的中文语音识别模型,训练+部署
将百度DeepSpeech的keras后端由theano改为tensorflow,整合mozilla解码模块进行中文语音识别模型部署项目:https://github.com/taozitongxue1/DeepSpeech-tensorflow和百度deepspeech的不同点1. 框架选择背景:2019年3月12号智能语音组接受了公司新采购的GPU机器一台,由于新机器适配的驱动版本太高...原创 2021-01-12 18:12:22 · 9507 阅读 · 18 评论 -
deepspeech 2 (百度 2016 论文解读 )
论文:http://proceedings.mlr.press/v48/amodei16.pdf题目:Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin摘要我们表明,可以使用端到端的深度学习方法来识别英语或普通话(两种截然不同的语言)。 由于它用神经网络代替了人工工程组件的整个流水线,因此端到端学习使我们...翻译 2019-11-15 12:15:11 · 3424 阅读 · 0 评论 -
deepspeech 1 (百度 2014 论文解读)
论文:https://arxiv.org/pdf/1412.5567.pdf题目:Deep Speech: Scaling up end-to-end speech recognition摘要我们提出了使用端到端深度学习开发的最先进的语音识别系统。我们的体系结构比传统的语音系统要简单得多,传统的语音系统依靠费力地设计的处理管道。当在嘈杂的环境中使用时,这些传统系统的性能也往往很差。相反,我们...翻译 2019-11-15 12:16:14 · 1766 阅读 · 0 评论 -
医疗对话场景的语音识别 |垂直领域(google 2018 论文解读)
论文:https://arxiv.org/pdf/1711.07274.pdf题目:Speech recognition for medical conversations摘要在本文中,我们记录了我们在开发用于医学转录的语音识别方面的经验-一种自动转录医患对话的系统。为了实现这一目标,我们沿着两种不同的方法论体系构建了一个系统-基于连接主义时间分类(CTC)音素的模型和基于听众和咒语(LAS...翻译 2019-11-15 12:18:06 · 1532 阅读 · 0 评论 -
beam search解码原理(斯坦福 2014 论文解读)
论文:https://arxiv.org/pdf/1408.2873.pdf题目:First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs摘要我们提出一种仅使用神经网络和语言模型来完成大词汇量连续语音识别的第一步的方法。 深度神经网络声学模型现在在基于HMM的语音...翻译 2019-11-16 16:35:17 · 1962 阅读 · 4 评论 -
语音切割,个人VAD (google 2019 论文翻译)
论文:https://arxiv.org/pdf/1908.04284.pdf题目:PERSONAL VAD: SPEAKER-CONDITIONED VOICE ACTIVITY DETECTION摘要在本文中,我们提出了“个人VAD”系统,该系统可以在帧级别检测目标说话者的语音活动。 该系统可用于对流语音识别系统的输入进行门控,使其仅为目标用户触发,这有助于降低计算成本和电池消耗。 我们...翻译 2019-11-16 16:34:51 · 2954 阅读 · 0 评论 -
语音处理相关知识
文章目录采样率和带宽(最高频率)的关系采样率和码率的关系音频处理工具ffmpeg的使用语音特征提取1. 频谱特征提取2. MFCC特征提取采样率和带宽(最高频率)的关系那奎斯特采样定理:采样率=2*最高频率我们的音频是8k采样,所以抽取的特征在0-4k范围。开源语音数据一般都是16k采样,要利用开源数据必须先转换采样率和业务数据采样率保持一致。查看音频采样率:sox -V name.wa...原创 2019-11-15 12:09:49 · 515 阅读 · 0 评论 -
keras后端配置
找不到~/.keras/keras.json,装一下tensorflow:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow基于keras的模型训练中tensorflow和theano使用如果采用keras搭建模型,需要配置~/.keras/keras.json,keras需要指定backend,如下:{ ...原创 2019-11-15 12:10:21 · 711 阅读 · 0 评论 -
CPU上的虚拟核和物理核
问题描述语音转写模型在cpu上起多进程的时候吞吐量没有增加反而下降,将进程绑定到具体的核上也不能解决问题,查看机器的核数发现服务器上有虚拟核,分析原因可能是虚拟核存在的原因。虚拟核也叫逻辑核,Linux用户对 /proc/cpuinfo 这个文件肯定不陌生. 它是用来存储cpu硬件信息的信息内容分别列出了processor 0 – n 的规格。这里需要注意,如果你认为n就是真实的cpu数...原创 2019-11-15 12:12:02 · 5815 阅读 · 0 评论 -
不同GPU上,深度学习环境参考
分别列出了TITAN X、Tesla V100、GeForce RTX 2080 ti 三种不同型号GPU上的环境整理。原创 2020-01-07 13:57:37 · 921 阅读 · 0 评论 -
cuda安装、切换、查看
新机器上装了最新的cuda 10.1,但是我们的语音转写工程依赖cuda 8.0,需要安装8.0版本。一、安装1.cuda版本选择:https://developer.nvidia.com/cuda-toolkit-archive,我选择8.0版本。2.选择平台描述,以上是我的选择查看机器信息,使用以下命令,选择合适的选项:cat /proc/versioncat /etc/redh...原创 2019-11-15 12:12:55 · 2639 阅读 · 0 评论 -
模型训练部署过程中的报错处理
文章目录Allocation of X exceeds 10% of system memory 解决方式wget 下载文件报错:connection reset by peer报错:ERROR (theano.sandbox.cuda): Failed to compile cuda_ndarray.cu: libcublas.so.8.0: cannot open shared object ...原创 2019-11-15 12:13:36 · 3244 阅读 · 1 评论 -
使用memory_profiler工具对python工程做内存分析|python的内存管理机制
memory_profiler使用memory_profiler主要用来监控python工程占用内存大小安装pip install -U memory_profiler用法from memory_profiler import profile在需要分析的函数上面添加注释@profile(precision=4,stream=open('memory_profiler.log','...原创 2020-01-07 14:05:51 · 1625 阅读 · 0 评论 -
python协程(迭代器、生成器、协程之间的关系)
背景啃了《流畅的python》一书里面讲协程的章节,对协程的概念还是一知半解,大概知道协程的几个要点:一个线程有预激协程yield返回值等待结果判断出我研究的代码是协程,但是对于迭代器、生成器、协程的概念还是含混不清。正如下面大牛讲的,关于python协程的文档真不多,python2的更是不好找。如果python书籍有一定的指导作用,那么(协程就是)文档最匮乏、最鲜为人知的p...原创 2019-11-15 12:14:04 · 369 阅读 · 1 评论 -
tensorflow 1.12从源代码进行编译安装来适配CPU
文章目录1.bazel安装2.python环境搭建3.tensorlow下载、配置、安装3.1 下载3.2 配置3.3 编译3.4 安装3.5 测试mkdir /home/q/tensorflow_1.12_buildcd /home/q/tensorflow_1.12_build1.bazel安装bazel选择0.15.0wget https://github.com/bazelbu...原创 2019-11-15 12:08:38 · 1263 阅读 · 0 评论 -
deepspeech部署过程中遇到的一些问题和解决方案
文章目录一、转写准确率评估(1)similaraty=2.0*M/T(2)distance=D/L二、tensorflow模型部署cpu和gpu设置CPU配置项GPU配置项三、TensorFlow Lite部署的坑四、tensorflow模型保存PB文件一、转写准确率评估(1)similaraty=2.0*M/TM:匹配的字符数T:两个序列的总字符数(2)distance=D/L前提假...原创 2019-11-15 12:09:17 · 1698 阅读 · 0 评论 -
安装ffmpeg
1.repo配置sudo vim /etc/yum.repos.d/dag.repo讲下面内容粘贴进文件[nux-dextop]name=Nux.Ro RPMs for general desktop usebaseurl=http://li.nux.ro/download/nux/dextop/el7/$basearch/ http://mirror.li.nux.ro/li.nux...原创 2019-11-15 12:10:06 · 298 阅读 · 0 评论