
语音处理
文章平均质量分 94
无水先生
擅长数学,能熟练应用泛函分析、统计学、随机过程、逼近论、微分几何、非欧几何(双曲、共形)等数学理论,有数学建模能力。从事图像处理二十年以上,从事人工智能行业10年以上;在船舶、通信、铁路、教育等行业开发软件产品。
展开
-
【音频处理】了解梅尔谱图
如果您和我一样,尝试理解梅尔谱图并不是一件容易的事。你读一篇文章只是为了引出另一篇文章……又一篇文章……又一篇文章……如此不断。我希望这篇短文能够澄清一些困惑,并从头开始解释梅尔谱图。原创 2024-04-24 11:14:22 · 3619 阅读 · 0 评论 -
如何在 Python 中将语音转换为文本
学习如何使用语音识别 Python 库执行语音识别,以在 Python 中将音频语音转换为文本。想要更快地编码吗?我们的Python 代码生成器让您只需点击几下即可创建 Python 脚本。现在就现在试试!原创 2024-01-24 16:37:49 · 9427 阅读 · 2 评论 -
【 语音问题 】解决在win 32/64上无法安装 pyaudio ?
Python3.7 无法安装pyaudio,度娘的结果基本都是这个,pip install pyaudio.....然而十有八九你的电脑不买账,会报错。本篇将介绍如何在win10+anaconda安装pyaudio。原创 2023-10-17 21:08:46 · 3922 阅读 · 2 评论 -
使用 pyttsx3 探索 Python 中的文本转语音
文本转语音 (TTS) 技术是一个令人着迷的领域,它允许计算机将书面文本转换为口语单词。在这篇博文中,我们将深入研究使用 Python 和强大的 pyttsx3 库进行文本到语音合成的世界。无论您是有兴趣创建可访问的应用程序、构建交互式语音助手,还是只是探索 TTS 的功能,本指南都将使您全面了解 pyttsx3 及其用法。原创 2022-06-17 09:23:00 · 8168 阅读 · 3 评论 -
【语音识别】- 声学,词汇和语言模型
语音识别是指计算机通过处理人类语言的音频信号,将其转换为可理解的文本形式的技术。也就是说,它可以将人类的口语语音转换为文本,以便计算机能够进一步处理和理解。它是自然语言处理技术的一部分,被广泛应用于语音识别助手,语音交互系统,语音搜索等领域。原创 2023-07-27 10:59:32 · 5822 阅读 · 0 评论 -
语音识别 — 特征提取 MFCC 和 PLP
语音识别是一种技术,通过计算机和软件系统,将人们的口头语言转换为计算机可读的文本或命令。它使用语音信号处理算法来识别和理解人类语言,并将其转换为计算机可处理的格式。语音识别技术被广泛应用于许多领域,如语音助手、语音控制、语音翻译、语音搜索、电话自动接听等。原创 2023-07-28 14:58:40 · 5797 阅读 · 0 评论 -
音频深度学习变得简单:自动语音识别 (ASR),它是如何工作的
在本文中,我将重点介绍使用深度学习进行语音转文本的核心功能。我的目标不仅是了解某件事是如何工作的,而且是了解它为什么会这样工作。原创 2023-07-27 18:13:53 · 6191 阅读 · 0 评论 -
【NLP】语音识别 — GMM, HMM
在语音识别的深度学习(DL)时代之前,HMM和GMM是语音识别的两项必学技术。现在,有将HMM与深度学习相结合的混合系统,并且有些系统是免费的HMM。我们现在有更多的设计选择。然而,对于许多生成模型来说,HMM仍然很重要。但无论状态如何,语音识别都有助于我们更好地理解HMM和GMM在ML环境中的应用。所以停止长脸,让我们有时花在上面。原创 2023-07-27 09:50:59 · 6396 阅读 · 0 评论 -
编辑距离:最长公共子序列-LCS问题
最长公共子序列(LCS)问题是在一组序列(通常只有两个序列)中找到所有序列共有的最长子序列的问题。它与最长公共子串问题不同:与子串不同,子序列不需要占据原始序列中的连续位置。最长公共子序列问题是经典的计算机科学问题,是 diff 实用程序等数据比较程序的基础,在计算语言学和生物信息学中有应用。它还被 Git 等版本控制系统广泛用于协调对受版本控制的文件集合所做的多项更改。例如,考虑序列 (ABCD) 和 (ACBAD)。它们有 5 个长度为 2 的公共子序列:(AB)、(AC)、(AD)原创 2022-01-14 10:16:35 · 6633 阅读 · 0 评论 -
基因序列算法:编辑距离( Levenshtein 距离)和LD算法
Wagner–Fischer algorithmWagner-Fischer 算法基于以下观察计算编辑距离:如果我们保留一个矩阵来保存第一个字符串的所有前缀和第二个字符串的所有前缀之间的编辑距离,那么我们可以通过填充填充来计算矩阵中的值矩阵,从而找到两个完整字符串之间的距离作为计算的最后一个值。一个简单的实现,作为函数 Distance 的伪代码,它接受两个字符串,长度为 m 的 s 和长度为 n 的 t,并返回它们之间的 Levenshtein 距离,如下所示。请注意,输入字符串是单索引的,而原创 2022-01-09 13:28:19 · 9384 阅读 · 5 评论 -
索爱麦克风免驱动的语音录入测试
树莓派上麦克风的使用方式 - 知乎 (zhihu.com)1 有趋和免趋无论是麦克风,还是摄像头,都有“有趋”和“免趋”类型,想在linux上能用,最好都是选择免驱的。这里亲测索爱的pcm2902麦克风.2...原创 2021-11-04 11:14:12 · 6303 阅读 · 0 评论 -
ubuntu18.04下pyaudio的安装、调试
本文介绍了 Python 中的音频库 Pyaudio,安装、使用。安装分两个部分:pyaudio---此为python脚本部分portaudio---此为python脚本调用的动态库,用c++写将以上两个部分同时安装妥善,才能最后完成。原创 2021-12-01 14:35:36 · 8680 阅读 · 0 评论 -
语音识别2:CTC对齐的算法
CTC算法详解_Michael’s Blog-优快云博客_ctcCTC算法基本原理解释_nicajonh的博客-优快云博客_ctc算法CTC算法详解Michaelliu_dev 2018-11-02 19:49:59 44257 收藏 245分类专栏: 机器学习 文章标签: CTC 机器学习版权机器学习专栏收录该内容70 篇文章3 订阅订阅专栏和其它文章初衷一样,网上解释很多,但是讲的不是很明白,在看完几篇参考博客后特此记录简介先拿语音识别任务来说,如果现在有一个包..原创 2021-12-07 11:15:23 · 7956 阅读 · 0 评论 -
Python知识: scipy signal.chirp用法例
Python scipy signal.chirp用法及代码示例用法:scipy.signal.chirp(t, f0, t1, f1, method='linear', phi=0, vertex_zero=True)Frequency-swept余弦发生器。在下文中,‘Hz’应解释为“每单位循环数”;此处不要求单位为一秒。重要的区别是旋转单位是周期,而不是弧度。同样,t可以表示空间而不是时间。参数:t:array_like评估波形的时间。f0:float在时间t原创 2022-02-21 07:35:20 · 7132 阅读 · 0 评论 -
Python知识:生成声波并显示
如何自己产生一个声波? 采用signal.chirp产生声波,对声波读、存、参数设定,等声波操作,都依靠一个叫Wav的对象完成。原创 2022-02-18 07:16:29 · 7451 阅读 · 0 评论 -
语音识别系列1:语音识别Speech recognition综述
语音或说话者识别是程序根据其独特的声纹识别人的能力。它通过扫描语音并与所需的语音指纹建立匹配来工作。人工智能的发展为计算机科学的这一子领域开辟了广阔的机遇。它使我们能够在不接触机器的情况下与机器进行交互。它发展迅速,开发人员正在寻找越来越多的方法将其应用到各个领域。原创 2022-02-15 07:40:47 · 11720 阅读 · 0 评论