- 博客(213)
- 资源 (6)
- 收藏
- 关注
原创 用docker容器创建属于自己的一方小世界!容器中,盖周天之变,化吾为王~
用docker容器创建属于自己的一方小世界!容器中,盖周天之变,化吾为王~
2025-04-12 09:52:37
246
原创 建模混淆矩阵以提高语音识别准确率,并应用于构音障碍语音
构音障碍是一种运动性语音障碍,表现为发音肌肉的无力、瘫痪或协调不良。可由中风、脑瘫、创伤性脑损伤或退行性神经疾病(如帕金森病或阿尔茨海默病)引起。影响肺部、喉部、口腔咽部、鼻咽部、软腭和发音器官(嘴唇、舌头、牙齿和下颌)等肌肉。元模型技术在低可理解性和有限适应数据条件下显著提高了识别准确率。下一步研究将探索高基线性能情况下的改进模型。将在更大规模的数据集上验证该技术的有效性。
2025-04-02 08:25:15
141
原创 基于Selenium的IEEE Xplore论文数据爬取实战指南
IEEE Xplore作为全球知名的学术资源平台,收录了大量高质量科技文献。,欢迎Star & Fork交流学习。希望本教程能为学术研究者提供安全合规的数据获取方案。
2025-03-29 09:57:58
1019
原创 自动评估语音和言语障碍的PEAKS系统
原文:PEAKS – A system for the automatic evaluation of voice and speech disorders
2025-03-24 14:20:31
53
原创 基于因子分析总变异性空间的构音障碍语音可懂度评估
构音障碍由神经肌肉控制紊乱引起,影响呼吸、发音、共鸣、构音和语调。六种主要类型:弛缓性、痉挛性、共济失调性、运动过多性、运动过少性和混合型。包含15位构音障碍说话者的录音,具有不同可懂度水平。使用麦克风6进行实验,分为训练集和测试集。总变异性或iVector子空间成功应用于构音障碍语音可懂度评估。使用PLP系数作为输入特征,未来可通过设计专门特征进一步改进。
2025-03-24 10:10:45
72
原创 构音障碍(Dysarthria)研究全景总结(1996–2024)
通过系统性整合技术、数据与临床需求,构音障碍研究有望从实验室走向真实世界,显著提升患者生活质量与社会参与度。构音障碍研究历经近30年,从。
2025-03-22 18:37:35
181
原创 《声音的未来:语音识别文献解读》专栏介绍及其文章解读目录
每个月,我们都会精选全球顶尖学术论文,结合通俗易懂的解读,为您呈现语音识别领域的最新动态与发展趋势。无论您是技术爱好者、研究人员,还是行业从业者,都能在这里找到有价值的内容,开启对“声音未来”的深度思考。在这里,我们将带您走进语音技术的核心,探索从音位分类到语音合成,从语音障碍分析到多口音语音合成的精彩世界。:涵盖音位分类、语音障碍分析、情感TTS、多口音语音合成等多个领域,满足不同读者的需求。:用通俗易懂的语言,拆解复杂的技术细节,让您轻松掌握前沿知识。订阅专栏追踪最新语音技术前沿。
2025-03-18 13:51:51
147
原创 语音模仿评估中的注意力增强X-vector方法
提出了基于注意力增强X-vector的语音模仿评估框架。使用稀疏自编码器和LSTM模型进行特征提取和评分。
2025-03-17 14:18:05
95
原创 声学建模中用于构音障碍语音识别的特征选择意义
原文:Significance of Feature Selection for Acoustic Modeling in Dysarthric Speech Recognition
2025-03-17 09:29:40
113
原创 基于短时语音片段的残差神经网络精确量化构音障碍严重程度
构音障碍是一种运动性语言障碍,影响说话所需的发音元素和肌肉。当前语音技术(如智能个人助手)对健康语音假设,无法高效处理受损语音。短时语音片段在交互设备中广泛使用,其性能依赖自动语音识别算法。提出了一种基于ResNet的新技术来检测构音障碍严重程度。实验证明ResNet在短时语音片段上的表现优于传统方法。未来将尝试其他特征提取技术和改进的ResNet版本以降低硬件需求。
2025-03-16 08:16:24
56
原创 使用深度学习框架进行自动构音障碍严重程度分类
构音障碍是一种运动性语言障碍,通常由神经损伤引起,如脑瘫或帕金森病。这种障碍导致发音不准确、声音微弱、语调异常和语速变化,从而降低语音质量。通过分析语音清晰度可以评估构音障碍的严重程度,这有助于监测患者的进展并规划语言治疗。
2025-03-03 08:22:13
207
原创 使用UA-SPEECH和TORGO数据库验证自动构音障碍语音分类方法
包含15名脑瘫患者和13名对照组的录音,采样率为16kHz。每个说话者的语句数量为721条,平均长度为1887秒。
2025-03-01 14:39:18
201
原创 TORGO 数据库:构音障碍语音研究的宝贵资源
在语音识别和语音病理学领域,构音障碍(Dysarthria)是一个重要的研究方向。构音障碍是由神经运动接口异常引起的,导致发音器官运动异常,语音不清晰,传统自动语音识别(ASR)系统难以有效识别。该数据库旨在为开发适用于构音障碍患者的 ASR 模型提供数据支持。构音障碍患者的语音不清晰,传统 ASR 系统难以识别。TORGO 数据库通过记录详细的发音运动数据,为研究构音障碍的语音特征和开发改进的 ASR 模型提供了重要支持。,这是一个包含构音障碍患者和正常对照组语音数据的宝贵资源。
2025-02-28 18:37:51
154
原创 1000 非洲之声:推进包容性的多发言人多口音语音合成
这篇文章提出了 一个非洲口音英语语音合成系统,能够生成 86 种非洲口音的语音,应用于教育、公共卫生和自动化内容创作等领域。首先,来看,首先是数据集,在表格1可以看到,数据集包括了747 名付费贡献者的数据,9 个国家代表 86 种口音。然后是数据预处理,由于是在不同设备上远程录制的,所以需要进行预处理。首先,使用语音增强模型去除各种背景噪声,包括固定和非固定噪声以及房间混响。然后,去噪后的样本通过带宽扩展模型 VoiceFixer 进行处理,改善部分严重降质的发音。
2025-02-25 17:59:12
140
原创 基于Transformer的语音障碍分析方法
提出了一种基于Transformer的新方法,直接处理原始语音信号。通过生成合成数据和数据增强来解决数据短缺问题。使用Mixture of Experts (MoE)集成模型,同时考虑多种录音类型。
2025-02-19 13:50:16
225
原创 用语言模型探索语音风格空间:无需情感标签的情 感TTS
今天我们要说的是 一种无需情感标签的情感TTS。提出了一个基于FastSpeech2的E-TTS框架,该框架经过两个阶段的训练,直接从未标注情感的训练数据中学习情感表示。我们利用风格标记构建情感风格空间,并使用微调后的BERT模型有效探索此空间。下面先来看一下这个两阶段训练方法,训练声学模块,包括文本、方差适配器、解码器和GST网络(由参考编码器和样式嵌入组成),如图1所示。编码器将音素嵌入转换为音素隐藏序列,而方差适配器则引入引入了音高、时长和能量的变化。
2025-02-11 14:20:46
277
原创 基于Transformer的语音活动检测器:在低资源环境中的应用
今天我们要说的是 一种基于transformer架构的声音活动检测,这个声音活动检测的任务是区分声音和其他类型声音信号,比如音乐或者背景噪声。自动语音识别(ASR)、说话人识别和语音增强等许多实际语音处理任务都需要可靠的和准确的VAD作为预处理步骤。评估两个数据集上的VAD性能。AVA-Speech是一个专门为VAD基准测试开发的公开数据集。此外,我们还考虑了来自48集南非肥皂剧的手动分割语音语料库,
2025-01-21 14:30:15
119
原创 自动化构音障碍严重程度分类:基于声学特征与深度学习的研究 学习技术
本文比较了不同深度学习技术和声学特征在构音障碍严重程度分类中的应用。研究评估了深度神经网络(DNN)、卷积神经网络(CNN)、门控递归单元(GRU)和长短期记忆网络(LSTM),并使用梅尔频率倒频系数(MFCCs)和常量Q倒频系数(CQCCs)作为基本语音特征。此外,还探讨了低维特征表示的效用,使用i-vectors进行分类。
2025-01-09 14:46:54
264
原创 使用wav2vec 2.0进行音位分类任务的研究总结
本研究探讨了在语音音位分类任务中,特别是鼻音检测方面,使用不同长度的语音片段提取向量表示的有效性。研究主要集中在wav2vec 2.0模型上,这是一种基于自监督学习的语音处理框架。具体问题在于:从单个音素和较长语音序列中提取的向量表示对鼻音检测的效果有何不同?通过上述研究,我们展示了不同长度的语音片段在鼻音检测中的有效性,并为进一步改进语音处理技术提供了理论依据。
2025-01-08 09:52:20
404
原创 算法设计期末复习
时间复杂度是算法运行时间的增长率,通常用大O符号表示。回溯法是一种通过尝试所有可能的解来解决问题的算法,当发现当前解不可行时,回退并尝试其他路径。算法是解决特定问题的一系列明确指令或步骤的集合。分枝限界法是一种通过剪枝来减少搜索空间的算法,通常用于解决组合优化问题。分治算法是一种将问题分解为若干个子问题,分别解决后再合并结果的算法。蛮力法是一种直接解决问题的方法,通常通过穷举所有可能的解来找到答案。算法分析是对算法的时间复杂度、空间复杂度以及正确性进行评估的过程。概率算法是一种利用随机性来解决问题的算法。
2024-12-21 08:51:37
1073
2
原创 可计算性与计算复杂性期末复习必备,期末复习看这一篇就够了!!!!!!!!!!
如果 P = NP,那么许多“难”问题将变得“容易”;如果 P ≠ NP,那么这些“难”问题将永远无法高效解决。:难以解决但容易验证的问题(可以在多项式时间内验证解的正确性)。是否所有 NP 问题都是 P 问题(即 P = NP)是未知的。:容易解决的问题(可以在多项式时间内找到解)。所有 P 问题都是 NP 问题。
2024-12-14 15:14:36
269
2
原创 【文献阅读】使用深度语音后验改进独立于说话者的构音障碍可懂度分类
原文名称:本文探讨了利用DeepSpeech后验概率改进说话人无关的构音障碍可理解性分类方法。作者提出了一个基于DeepSpeech(一种端到端的语音转文本引擎)输出的新特征集,用于评估构音障碍患者的语音可理解性。这些新特征在说话人无关的情况下表现良好,能够更好地处理不同说话人的变异性。背景介绍:数据集:特征提取:实验设置:结果:本文提出的新特征集在说话人无关的构音障碍可理解性分类任务中表现出色,特别是在低可理解性和高可理解性类别上。未来的工作将集中在减少低可理解性和中可理解性类别之间的混淆,以进一步提高系
2024-12-12 17:39:59
321
原创 【文献阅读】提高基于数据增强的构音障碍语音转换系统的效率
构音障碍是一种由于神经损伤引起的语言障碍,导致患者无法清晰发音,影响沟通效率。最近提出了基于语音驱动的方法来提高构音障碍患者的语音清晰度,但大部分方法需要大量语料的代表性。本研究提出了一种基于数据增强的语音转换系统(DVC 3.1),以减少录音负担,并通过合成大量目标与患者相似的语料持提升语音可懂度。
2024-12-01 15:06:51
126
原创 【文献阅读】自动化构音障碍严重程度分类:声学特征与深度学习技术的研究
评估构音障碍的严重程度可以提供患者改善的见解,并协助治疗计划的制定。本研究比较了使用各种深度学习架构和声学特征的构音障碍严重程度分类。评估的架构包括:DNN、CNN、GRU 和 LSTM,使用基本特征如 MFCC 和 CQCC。分析了来自韵律、发音、音质和声门功能的演讲障碍特定特征。探索通过 i-向量实现低维特征表示,并使用 DNN 进行分类。在说话者依赖情况中实现了 93.97% 的准确率,而在说话者独立情况下实现了 49.22% 的准确率。
2024-11-27 09:00:52
376
原创 人工智能导论期末复习题型,期末必备!
即 {P(x),Q(x)} 标准化后 {P(x),Q(y)}例子:C(ds),C(y)→EASY(y)⇒EASY(ds)消去原则:P^Q → { P , Q }前束形=(量词前缀){母式}(假设 任意x,存在y,
2024-11-24 14:30:06
575
原创 软件体系结构期末复习
构件是软件系统中的一个独立模块,通常表示系统的一部分功能。构件可以是类、服务或模块。内容接口:定义构件与外部交互的方式。实现:构件内部逻辑和功能。状态:构件的内部数据。文档:描述构件功能和使用方法。特点封装性:内部实现对外部不可见。可重用性:构件可以在不同的系统中重复使用。可替换性:构件可以被其他实现相同接口的构件替换。松耦合:构件之间的依赖性较小。Garlan 和 Shaw 定义软件体系结构为“软件系统的基本组织,包括构件及其相互之间的关系”。组成部分构件:系统的基本单元,执行特定功能。
2024-11-18 13:59:24
1136
原创 通俗理解23种设计模式,软件体系结构期末复习必备!
提供一个创建一系列相关或相互依赖对象的接口,而无需指定它们的具体类。以上就是23种设计模式的简单介绍和示例代码。每种设计模式都有其特定的应用场景,掌握这些模式能够帮助开发者更好地解决实际开发中的问题,提高代码质量。如果您对某些模式有兴趣,建议深入学习并进行实践。希望这篇博客对您有所帮助!关注B站帅小柏。
2024-11-13 09:28:34
706
原创 深入探讨 ESPnet AIShell 项目:ASR 脚本 asr.sh 的实现与解析(一)之脚本前564行,定义各种配置项、函数和条件逻辑
log() {echo -e "$(datelog() {log() {log() {log() {log() {定义一个log函数,用于记录日志。:获取调用日志函数的文件名。:输出当前时间、文件名、行号和传递给函数的参数。min() {local a ba=$1dothena="${b}"fidone定义一个min函数,用于找出传入参数中的最小值。local a b:声明局部变量。a=$1:将第一个参数赋值给a。使用for循环遍历所有参数,检查并更新a。
2024-11-05 19:18:00
838
原创 全面解析 ESPnet:Aishell 项目深入指南
以上五个阶段形成了一个完整的语音数据处理流程,从数据准备、特征提取、数据过滤到生成 Token 列表,每一步都有其特定的作用。理解这些阶段有助于在语音识别项目中进行有效的数据预处理和特征工程。
2024-11-02 14:32:50
392
原创 深入理解支持向量机:从基本原理到实际应用
本章详细介绍了支持向量机的基本原理和应用,包括间隔与支持向量、对偶问题、核函数、间隔与正则化、支持向量量回归和核方法。支持向量机凭借其强大的性能和灵活性,在许多实际场景中得到了广泛应用。希望本章的内容能够帮助你深入理解支持向量机的工作机制与应用潜力。
2024-10-24 14:41:58
727
原创 深入浅出神经网络:从基础原理到高级应用
神经网络是深度学习的核心,理解其基础构造和训练方法对于掌握现代人工智能技术至关重要。通过以上各章节的详细讲解,我们从神经元模型、感知机、多层网络、误差逆传播算法,到全局最小与局部极小问题,以及不同类型的神经网络,一步步深入了解其原理和应用。希望这些内容能够帮助你更好地理解神经网络的复杂性和强大潜力。
2024-10-24 14:25:36
1275
原创 《人工智能导论》之python代码实验,12个实验一网打尽!看这一篇就够了!!!
在 Windows 上,您可以使用 Anaconda Prompt 或 CMD。在 macOS 或 Linux 上,打开 Terminal。由于如果是在本地创建环境的话,默认是在C盘。(当然,有个例外,base环境是和conda的安装路径是一致的)那么,,下载安装,不论是在服务器还是在本地,都是非常简单的,这里就不过多赘述了,自行去官网 👉。= =根据我的观察,需要以下的包。激活后,就可以在该环境中。也没用到决策树的精髓。查看已有已创建的环境。
2024-10-18 20:01:45
1527
原创 决策树算法新手入门:从基础理论到Python实现
假设样本集合DDD共有NNN类,第kkk类样本所占比例为pkp_kpk,则DDDHD−∑k1Npklog2pkHD−k1∑Npklog2pk信息熵描述的是在结果出现之前对可能产生的信息量的期望,反映了结果的不确定性。信息熵越大,不确定性越大。HDH(D)HD的值越小,则DDD的纯度越高。计算信息熵时约定:如果pk0p_k = 0pk0,则pklog2pk0p。
2024-10-18 08:27:16
778
原创 全面掌握 Linux 服务管理:从入门到精通
Linux 服务(service)是指在后台运行的程序或一组程序,通常用于提供特定的系统功能或应用功能。例如,Web 服务器服务 (如 Apache 或 Nginx)、数据库服务器服务 (如 MySQL 或 PostgreSQL),以及网络服务 (如 SSH 或 FTP) 等。在 Linux 系统中,服务通常由系统管理员管理,通过systemd—— 一个系统和服务管理器,systemctl命令是管理systemd服务的主要工具。通过本文的详细介绍,你应该已经掌握了如何使用systemctl。
2024-10-14 15:36:52
1160
原创 线性模型详解:新手入门及期末必备!
线性模型是一类通过建立自变量和因变量之间的线性关系来进行预测和分类的统计模型。本文将详细介绍线性模型的基本形式、线性回归、对数几率回归、线性判别分析、多分类学习以及类别不平衡问题。
2024-10-13 10:01:53
1226
原创 在ESPnet使用Makefile安装PyTorch和相关依赖的详细教程
在数据科学和机器学习项目中,经常需要安装和配置多个软件包和库。手动安装这些依赖项可能会非常繁琐和耗时。为了简化这个过程,我们可以使用Makefile来自动化安装过程。本教程将详细介绍如何使用Makefile来安装PyTorch和其他相关依赖项。
2024-09-28 10:28:04
557
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人