
Audio
文章平均质量分 73
爱睡觉的Raki
我不能只做观众
展开
-
Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning
Abstract & Introduction & Related Work研究任务自动音频字幕已有方法和相关工作面临挑战创新思路我们提出了第一个明确侧重于利用时间和局部时间频率信息的AAC方法为了生成字幕,我们采用了广泛使用的transformer解码器实验结论我们的结果将以前报告的最高SPIDEr从16.2提高到17.3Encoder一共有 NtN_tNt 个 CNN块,每个wave-block里面还有七个一维CNN卷积namekernel原创 2022-03-04 18:44:53 · 3273 阅读 · 0 评论 -
Raki的读paper小记:LEVERAGING STATE-OF-THE-ART ASR TECHNIQUES TO AUDIO CAPTIONING
Abstract & Introduction & Related Work研究任务已有方法和相关工作面临挑战创新思路使用了最新的ASR技术 in the ESPNet toolkit实验结论SPIDEr score of 0.224 and 0.246PROPOSED METHODOLOGYOverviewData Augmentation我们使用SpecAug[12]进行输入数据增强,包括三种变形–时间扭曲、频率屏蔽和时间屏蔽。我们将最大的时间翘曲参数设原创 2022-02-22 16:03:25 · 273 阅读 · 0 评论 -
CAU SUBMISSION TO DCASE 2021 TASK6: TRANSFORMER FOLLOWED BY TRANSFER LEARNING FOR AUDIO CAPTIONING
Abstract & Introduction & Related Work研究任务AAC(自动音频字幕)已有方法和相关工作面临挑战创新思路使用预训练模型,seq2seq模型使用CNN14和ResNet54作为encoder,transformer的decoder实验结论PROPOSED MODELSystem OverviewPre-Processing输入特征使用了log-mel频谱图特征。音频数据的采样频率为44.1kHz,我们采用了1024大小的汉恩窗口,原创 2022-02-22 15:28:59 · 1633 阅读 · 0 评论 -
Raki的读paper小记:Audio Captioning with Composition of Acoustic and Semantic Information
Abstract & Introduction & Related Work研究任务音频字幕已有方法和相关工作面临挑战创新思路加入了语义信息,使用了semantic embedding,梅尔能源特征,VGGish embedding实验结论sotaProposed Methodlog Mel特征和部分标题是分开编码的首先从音频信号里面抽取PANNs audio embedding,然后从每个音频片段的标题中提取主语-动词嵌入,把这两个embedding conca原创 2022-02-22 01:40:30 · 1748 阅读 · 0 评论 -
INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING
Abstract & Introduction & Related Work研究任务自动音频字幕已有方法和相关工作面临挑战创新思路本文首先提出了一个音频描述的主题模型实验结论发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键提出下面两种语音主题模型:局部音频主题。(a) 声音事件,可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述全局音频主题。(a) 声音场景,如准确的场景位置描述(“市中心原创 2022-02-21 22:52:15 · 853 阅读 · 0 评论 -
CONTINUAL LEARNING FOR AUTOMATED AUDIO CAPTIONING USING THE LEARNING WITHOUT FORGETTING APPROACH
Abstract & Introduction & Related Work研究任务自动音频字幕已有方法和相关工作大多数现有方法是在已有的数据集上优化和评价learning without forgetting (LwF)elastic weight consolidation (ECW)dynamic architectures like dynamically expandable networks (DEN)replay models like gradient e原创 2022-02-21 20:40:06 · 245 阅读 · 0 评论