
人工智能
文章平均质量分 91
尚歌
一步一脚印,在代码的世界创出自己的路
展开
-
使用Sinc卷积从原始音频数据进行轻量级的端到端语音识别
论文:Lightweight End-to-End Speech Recognition from Raw Audio Data Using Sinc-Convolutions摘要:许多端到端自动语音识别(ASR)系统仍依赖于经过预处理的频域特征,这些特征是手工制作的以模仿人类的听力。集成可学习特征提取的最新进展推动了我们的工作。为此,文本提出了将Sinc卷积与深度卷积相结合的轻型Sinc卷积(LSC),作为端到端ASR系统的低参数机器学习特征提取。本文将LSC(轻型Sinc卷积)融合进C.原创 2021-03-10 15:06:58 · 1458 阅读 · 0 评论 -
语音论文阅读(Conformer:基于卷积增强的Transformer语音识别模型)
论文: Conformer: Convolution-augmented Transformer for Speech Recognition摘要: 讲了基于CNN和Transformer的语音识别模型表现比以RNN为基础的模型好,Transformer模型擅长捕获基于内容的全局交互,而CNN则有效地利用了局部特征。本文工作:我们通过研究如何结合卷积神经网络和Transformer到一个模型,以参数有效的方式对音频序列的局部和全局相依性进行建模,从而实现了两个方面...原创 2020-12-13 09:21:22 · 18588 阅读 · 7 评论 -
语音论文阅读(流行的大规模语音识别端到端模型的比较)
论文: On the Comparison of Popular End-to-End Models for Large Scale SpeechRecognition(2020)大致内容:介绍了主流了端到端系统流式和非流式(RNN-T,RNN-AED,Transformer-AED) 展示了AED模型在非流式中比RNN-T模型好,在流式中RNN-T更有竞争性 Transformer-AED是目前的主流,在流式和非流式上都可以实现最好的精确度 展示目前的趋势是混合系统,将不同...原创 2020-12-11 09:23:24 · 1178 阅读 · 0 评论 -
端到端语音识别模型
端到端语音识别模型(原文地址)随着端到端神经网络在机器翻译、语音生成等方面的进展,端到端的语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务(词汇模型,声学模型和语言模型),端到端的语音识别模型基于梅尔语谱作为输入,能够直接产生对应的自然语言文本,大大简化了模型的训练过程,从而越来越受到学术界和产业界的关注。本文将通过六篇论文,从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展,并探讨不同端到端语音识别模型的优缺点。 ...转载 2020-12-10 09:58:57 · 3479 阅读 · 0 评论 -
基于python的NAO机器人开发01:安装python和naoqi库及有线和无线连接
一、NAOqi APIs NAOqi OS是NAO机器人的核心操作系统,NAOqi API提供了访问机器人的各种传感器设备接口以及应用接口。通过NAOqi,可以在动作、视觉、音频等不同模块之间相互传递信息,也可以通过编程实现各种功能。二、安装python和NAOqi库 Windows环境下,NAO支持的python版本为32位的python2,可以在python官网中下载。选择Windows××86 MSI installer,并配置python2的环境变量,将C:\Python27和C:.转载 2020-11-16 22:25:35 · 1969 阅读 · 0 评论 -
语音识别特征处理(MFCC,Fbank,PNCC)
语音参数提取特征分帧 ——> 预增强 ——> 加窗 ——> 添加噪声 ——> FFT ——> Mel滤波 ——> 对数运算——> DCT分帧我们需要将不定长的音频切分成固定长度的小段,这一步称为分帧。一般取10-30ms为一帧,为了避免窗边界对信号的遗漏,因此对帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分)。 一般取帧长的一半作为帧移,也就是每次位移一帧的二分之一后再取下一帧,这样可以避免帧与帧之间的特性变化太大。通常的选择是25ms每帧,帧迭为10转载 2020-09-29 10:40:34 · 19947 阅读 · 3 评论 -
CLDNN 模型
前言总结目前语音识别的发展现状,dnn、rnn/lstm和cnn算是语音识别中几个比较主流的方向。2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮。长短时记忆网络(LSTM,LongShort Term Memory)可以说是目前语音识别应用最广泛的一种结构,这种网络能够对语音的长时相关性进行建模,原创 2020-09-24 15:14:57 · 5633 阅读 · 1 评论 -
pytorch实现函数拟合
导入必要模块随机生成数据import randomimport numpy as npimport matplotlib.pyplot as pltimport torchimport torch.nn as nnimport torch.nn.functional as Fx_train_list = []y_train_list = []for i in range(1, 50): x = i*random.choice([0.7,0.8,0.9]) y = i*原创 2020-07-13 19:23:32 · 2405 阅读 · 0 评论 -
pytorch实现手写字体识别(Mnist数据集)
1.加载数据集一个快速体验学习的小tip在google的云jupyter上做实验,速度快的飞起。import torchfrom torch.nn import Linear, ReLUimport torch.nn as nnimport numpy as npfrom torch.autograd import Variablefrom torchvision import datasets,transformsfrom torch.autograd import Variable原创 2020-06-25 09:38:27 · 7474 阅读 · 2 评论 -
语音识别相关会议期刊、研究机构、工具包、博客等
目录一.会议1.1国际最顶尖会议1.2其他二. 期刊2.1国内2.2国外:三.国际语音识别技术研究机构五. 语音识别技术工具包六.主页和博客一.会议1.1国际最顶尖会议ICASSP:International Conference on Acoustics, Speech and Signal Processing每年一届,10月截稿,次年...转载 2019-10-18 21:37:30 · 1665 阅读 · 0 评论