
人工智能
文章平均质量分 93
MoussaTintin
@美团语音AI
展开
-
语音 AI 技术简介
语音 AI 技术(e.g. 语音识别、语音合成)是人工智能重要的研究和应用方向。但是,不同于 CV、NLP 等“显学”,语音相关的从业人员(学界和业界)相对较少,语音领域的学术会议和期刊影响力也比较有限。比如语音顶级会议 ICASSP 也仅是 CCF-B 类,InterSpeech 更是被划在 C 类;并且两个会议接近 50% 的文章接收率也经常为人诟病。语音 AI 是一个多学科交叉的技术方向,涉及到信号处理、语言学、语音学(e.g. 发音规律)、心理学(e.g. 听觉感知)、传统机器学习以及深度学习等。原创 2021-07-18 14:38:03 · 5162 阅读 · 1 评论 -
【Learning Notes】Sequence Transducer
CTC独立性假设,各个 frame 的输出概率。 合理性:1。简化了模型;2。虽然独立于输出,但依赖输入。我们能做的更好吗? 输出概率依赖于之前的输出,更合理,显然许多问题是成立的(语音识别,识别结果应该符合某种习惯) Fig. 1. The RNN-T model. The model consists of an encoder network, which maps inp...原创 2018-07-28 12:56:14 · 6443 阅读 · 0 评论 -
基于 python 的语音识别 API 调用
腾讯 AI 开放平台 开放了语音、图像等多种 AI 功能接口。本文尝试基于 python 完成对语音识别接口的本地调用。1. 准备工作API 调用需要身份认证。我们首先需要注册并获得 AppID 和 AppKey。在官网注册后,进入控制台,创建一个新应用,并在接口选择栏,为应用勾选“语音识别”。应用创建成功后,记下 AppID 和 AppKey。2. 接口鉴权接口鉴权的...原创 2018-04-19 23:31:35 · 6042 阅读 · 0 评论 -
【Learning Notes】CTC 原理及实现
CTC( Connectionist Temporal Classification,连接时序分类)是一种用于序列建模的工具,其核心是定义了特殊的目标函数/优化准则[1]。 jupyter notebook 版见 repo.1. 算法这里大体根据 Alex Graves 的开山之作[1],讨论 CTC 的算法原理,并基于 numpy 从零实现 CTC 的推理及训练算法。...原创 2018-03-05 09:47:32 · 25229 阅读 · 21 评论 -
【Learning Notes】Quasi-recurrent Neural Networks
Quasi-recurrent Neural Networks (QRNN)原创 2017-09-12 20:02:14 · 5406 阅读 · 0 评论 -
模型压缩之 BinaryNet
1. 动机深度学习在图像、语音、文本等领域都取得了巨大的成功,推动了一系列智能产品的落地。但深度模型存在着参数众多,训练和 inference 计算量大的不足。目前,基于深度学习的产品大多依靠服务器端运算能力的驱动,非常依赖良好的网络环境。很多时候,出于响应时间、服务稳定性和隐私方面的考虑,我们更希望将模型部署在本地(如智能手机上)。为此,我们需要解决模型压缩的问题——将模型大小、内存占用...原创 2016-12-03 16:13:02 · 14785 阅读 · 3 评论 -
语音应用开发中的 11 个常见错误
语音应用开发中常见的误区翻译 2017-09-05 13:45:54 · 1207 阅读 · 0 评论 -
【Learning Notes】基于 boosting 原理训练深层残差神经网络
Huang et al. Learning Deep ResNet Blocks Sequetially using Boosting Theory.文章指出一种基于 boosting(提升)原理,逐层训练深度残差神经网络的方法,并对性能及泛化能力给出了理论上的证明。1. 背景1.1 BoostingBoosting[1] 是一种训练 Ensemble 模型的经典方法,其中一种具体实现 GBDT原创 2017-06-17 00:28:00 · 3676 阅读 · 0 评论 -
智能音箱技术概览
概述智能音箱的软硬件技术。原创 2017-03-21 16:38:20 · 29534 阅读 · 5 评论 -
神经网络端到端序列学习(一)
许多重要问题都可以抽象为变长序列学习问题(sequence to sequence learning),如语音识别、机器翻译、字符识别。这类问题的特点是,1) 输入和输入都是序列(如连续值语音信号/特征、离散值的字符),2) 序列长度都不固定,3)并且输入输出序列长度没有对应关系。因此,传统的神经网络模型(DNN, CNN, RNN)不能直接以端到端的方式解决这类问题的建模和学习问题。解决变长序列的原创 2016-11-26 15:33:49 · 17679 阅读 · 1 评论 -
【Learning Notes】变分自编码器(Variational Auto-Encoder,VAE)
简单介绍变分自编码器(Variational Auto-Encoder,VAE)实现和原理。原创 2016-12-14 17:48:49 · 70290 阅读 · 20 评论