- 博客(54)
- 收藏
- 关注

原创 python杂记
目录1、argparse模块2、logging 模块3、读写操作:with open() as f:with open('data.txt', 'w') as f:With codecs.open()4、python使用json的格式5、Python 内置类型全解析1 Lists 列表型列表声明列表索引、切片列表拼接在列表中检索值从列表中删除元素6、if-else的多种写法7、Python常用模块之os.path——文件及路径操作os.p.
2022-05-26 13:07:30
1174
翻译 DDIM:去噪扩散隐式模型 DENOISING DIFFUSION IMPLICIT MODELS
DDIM:去噪扩散隐式模型 DENOISING DIFFUSION IMPLICIT MODELS
2023-11-07 15:46:07
133
翻译 一种快速的 GRIFFIN-LIM 算法(2013)
时频表示,特别是 Gabor 变换 [1],即采样短时傅立叶变换 (STFT),在信号处理中无处不在。Gabor 变换同时描述时间和频率上的信号。这种转换速度很快(得益于快速傅立叶变换 (FFT)),并为信号修改提供了一个很好的工具。如果将STFT的幅度平方理解为“局部时间频率功率谱”,则相位仍然是一个难以适当修改的复杂对象。因此,STFT 上的大多数变换都使用幅值或幅值平方(频谱图),使相位保持不变或有时完全下降。由于STFT是一种冗余结构,因此获得的系数通常不会形成有效的频谱图(即:
2023-06-08 17:11:53
63
翻译 使用深度神经网络基于递归相位展开的相位重构(2020)
相位重建已广泛用于许多声学信号处理,包括语音增强[1,2]和合成[37]。虽然具有观察到的噪声相位的相位重建已成功应用于语音增强 [810],但仅从给定的幅度谱图进行相位重建仍然是一个具有挑战性的问题。为了解决这个问题,已经研究了各种方法,包括基于一致性的方法 [11-13] 和基于模型的方法 [14]。前一种方法仅基于短时傅立叶变换 (STFT) [15] 的特性,而后一种方法明确使用目标信号的模型。通过考虑目标信号的属性,基于模型的方法在许多应用中取得了比基于一致性的方法更好的性能 [
2023-06-08 17:04:33
97
翻译 相位重建算法在光学中的声学应用(2022)
相位重建是一种仅从其幅度恢复复值信号的技术[1]。由于其在语音合成 [25] 和增强[611] 中的潜在应用,它最近引起了声学领域的关注。此外,最近与深度神经网络的一些结合展示了相位重建在声学中的有前途的应用,包括声音合成 [12] 和音频修复 [13]。因此,研究一种新的相位重建算法对于扩展声学信号处理的可能性非常重要。在本文中,我们专注于仅从给定幅度恢复相位的迭代算法。
2023-06-08 16:52:19
79
翻译 一种基于STFT幅度重建相位的非迭代方法(2017)
相位重构算法的主要应用领域是从修改后的频谱图进行重构。频谱图在复值 STFT 域中进行了修改。
2023-06-08 14:23:01
70
翻译 一种基于卡尔曼滤波的语音增强方法
本文考虑了只有损坏的语音信号可供处理时的语音增强问题。为此,研究了卡尔曼滤波方法,并与维纳滤波方法进行了比较。卡尔曼滤波方法的性能明显优于维纳滤波方法。提出了一种延迟卡尔曼滤波方法,进一步提高了卡尔曼滤波的语音增强性能。
2023-04-02 15:56:58
926
翻译 基于扩散概率模型的面向度量指标的语音增强
基于扩散概率模型的面向度量指标的语音增强METRIC-ORIENTED SPEECH ENHANCEMENT USING DIFFUSION PROBABILISTIC MODEL
2023-03-17 17:49:52
81
翻译 Semantic Audio-Visual Navigation(2021)
语义视听导航(2021)Semantic Audio-Visual Navigation(2021)
2022-08-16 18:06:39
340
翻译 Sound Spaces 2.0: A Simulation Platform for Visual-Acoustic Learning(2022)
SoundSpaces2.0:一个用于视觉-声学学习的模拟平台Sound Spaces 2.0: A Simulation Platform for Visual-Acoustic Learning(2022)
2022-08-16 13:37:09
2404
翻译 Sound Spaces: Audio-Visual Navigation in 3D Environments(2020)
声音空间:三维环境中的视听导航(2020)Sound Spaces: Audio-Visual Navigation in 3D Environments(2020)
2022-08-09 22:48:28
2159
翻译 Look, Listen, and Act: Towards Audio-Visual Embodied Navigation(2020)
看、听和行动:面向视听体现的导航(2020)Look, Listen, and Act: Towards Audio-Visual Embodied Navigation(2020)
2022-08-06 22:57:35
277
翻译 Seeing wake words: Audio-Visual Keyword Spotting(2020)
看到唤醒词:视听关键字定位(2020)Seeing wake words: Audio-Visual Keyword Spotting(2020)
2022-07-31 20:07:32
555
翻译 AUDIO-VISUAL KEYWORD SPOTTING BASED ON MULTIDIMENSIONAL CONVOLUTIONAL NEURAL NETWORK (2018)
基于多维卷积神经网络的视听关键字定位(2018)AUDIO-VISUAL KEYWORD SPOTTING BASED ON MULTIDIMENSIONAL CONVOLUTIONAL NEURAL NETWORK (2018)
2022-07-30 14:46:07
195
翻译 Lip Reading Sentences in the Wild(2017)
在野外的唇读句子(2017)Lip Reading Sentences in the Wild(2017)
2022-07-27 22:07:11
1237
1
翻译 Masked Label Prediction: Unified Message Passing Model for Semi-Supervised Classification(2021)
掩码标签预测:用于半监督分类的统一消息传递模型(2021)Masked Label Prediction: Unified Message Passing Model for Semi-Supervised Classification(2021)
2022-07-23 23:09:34
1802
2
翻译 An End-to-End Network for Emotion-Cause Pair Extraction (2021)
情绪原因对提取的端对端网络(2021) :仅使用文本模态来解决情感识别任务An End-to-End Network for Emotion-Cause Pair Extraction (2021)
2022-07-22 19:06:57
578
翻译 Modeling Relational Data with Graph Convolutional Networks(2017)
用图卷积网络建模关系数据(2017)Modeling Relational Data with Graph Convolutional Networks(2017)
2022-07-21 23:13:13
993
翻译 cogmen: contextualized gnn based multimodal emotion recognition(2022)
cogmen:基于语境gnn的多模式情感识别(2022)cogmen: contextualized gnn based multimodal emotion recognition(2022)
2022-07-20 22:08:25
1445
2
翻译 Speech Emotion Recognition with Multi-task Learning(2021)
多任务学习模式下的语音情绪识别的研究(2021)Speech Emotion Recognition with Multi-task Learning(2021)
2022-07-17 21:38:23
2527
2
翻译 Wav2KWS: Transfer Learning From Speech Representations for Keyword Spotting(2021)
Wav2KWS:基于语音表示的迁移学习用于关键词识别(2021)
2022-07-09 17:58:38
691
翻译 INTERACTIVE FEATURE FUSION FOR END-TO-END NOISE-ROBUST SPEECH RECOGNITION(2022)
用于端到端噪声语音识别的鲁棒交互特征融合(2022)INTERACTIVE FEATURE FUSION FOR END-TO-END NOISE-ROBUST SPEECH RECOGNITION(2022)
2022-07-05 22:28:52
668
1
翻译 A Novel Lip Descriptor for Audio-Visual Keyword Spotting Based on Adaptive Decision Fusion(2016)
一种基于自适应决策融合的视听关键字识别嘴唇描述符(2016)A Novel Lip Descriptor for Audio-Visual Keyword Spotting Based on Adaptive Decision Fusion(2016)
2022-07-04 16:17:37
448
翻译 A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement(2018)
一种用于实时语音增强的卷积递归神经网络(2018)A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement(2018)
2022-05-28 18:37:46
1255
原创 神经网络大总
全连接层(fully connected layers,FC)全连接的核心操作就是矩阵向量乘积: y=Wx,就是一个特征空间变换(线性变换),把有用信息提取整合。所有各种层连接到一起叫做神经网络,如果这个层只有全连接层,那么这个网络就是全连接神经网络。(全连接神经网络的主要作用是分类),下面是全连接神经网络的几种:在 CNN中,全连接常出现在最后几层,用于对前面设计的特征做加权和。提取全图范围特征,最终实现分类。(全连接参数量大,但是如果特征图压缩足够小再做全连接,...
2022-05-25 12:18:14
74
翻译 DEEP RESIDUAL LEARNING FOR SMALL-FOOTPRINT KEYWORD SPOTTING(2018)
基于深度残差学习的小足迹关键词识别(2018)
2022-05-24 22:45:00
309
翻译 IDEAL RATIO MASK ESTIMATION USING DEEP NEURAL NETWORKS FOR ROBUST SPEECH RECOGNITION(2013)
利用深度神经网络估计理想比率掩码进行鲁棒语音识别(2013)
2022-05-23 12:15:13
701
翻译 An Efficient Joint Training Framework for Robust Small-Footprint Keyword Spotting(2020)
一种用于鲁棒性小足迹关键词识别的高效联合训练框架(2020)An Efficient Joint Training Framework for Robust Small-Footprint Keyword Spotting(2020)
2022-05-20 02:00:00
616
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人