
语音技术
文章平均质量分 92
MoussaTintin
@美团语音AI
展开
-
语音 AI 技术简介
语音 AI 技术(e.g. 语音识别、语音合成)是人工智能重要的研究和应用方向。但是,不同于 CV、NLP 等“显学”,语音相关的从业人员(学界和业界)相对较少,语音领域的学术会议和期刊影响力也比较有限。比如语音顶级会议 ICASSP 也仅是 CCF-B 类,InterSpeech 更是被划在 C 类;并且两个会议接近 50% 的文章接收率也经常为人诟病。语音 AI 是一个多学科交叉的技术方向,涉及到信号处理、语言学、语音学(e.g. 发音规律)、心理学(e.g. 听觉感知)、传统机器学习以及深度学习等。原创 2021-07-18 14:38:03 · 5162 阅读 · 1 评论 -
基于 python 的语音识别 API 调用
腾讯 AI 开放平台 开放了语音、图像等多种 AI 功能接口。本文尝试基于 python 完成对语音识别接口的本地调用。1. 准备工作API 调用需要身份认证。我们首先需要注册并获得 AppID 和 AppKey。在官网注册后,进入控制台,创建一个新应用,并在接口选择栏,为应用勾选“语音识别”。应用创建成功后,记下 AppID 和 AppKey。2. 接口鉴权接口鉴权的...原创 2018-04-19 23:31:35 · 6042 阅读 · 0 评论 -
A Note on Kaldi's PLDA Implementation
Kaldi’s PLDA implementation is based on [1], the so-called two-covariance PLDA by [2]. The authors derive a clean update formula for the EM training and give a detailed comment in the source code. He...原创 2018-04-05 16:24:05 · 907 阅读 · 1 评论 -
【Learning Notes】CTC 原理及实现
CTC( Connectionist Temporal Classification,连接时序分类)是一种用于序列建模的工具,其核心是定义了特殊的目标函数/优化准则[1]。 jupyter notebook 版见 repo.1. 算法这里大体根据 Alex Graves 的开山之作[1],讨论 CTC 的算法原理,并基于 numpy 从零实现 CTC 的推理及训练算法。...原创 2018-03-05 09:47:32 · 25229 阅读 · 21 评论 -
语音应用开发中的 11 个常见错误
语音应用开发中常见的误区翻译 2017-09-05 13:45:54 · 1207 阅读 · 0 评论 -
智能音箱技术概览
概述智能音箱的软硬件技术。原创 2017-03-21 16:38:20 · 29534 阅读 · 5 评论