代码解读 | Hybrid Transformers for Music Source Separation[01]

一、背景

        今天对Hybrid Transformer Demucs代码进行解读,目标:明确图c中各个模块对应的代码具体在工程的哪个地方。解读的代码是开源工程中的htdemucs.py

        具体的paper解读看这篇文章

二、代码解读

        算法整体流程:图c其实是从下往上看的,时域信号(mixture):一方面经过左下的STFT变换到频域进行编码另一方面直接进入右侧分支直接编码。时域编码和频域编码结束后进入一个由Transformer Encoder 组成的模块中进行时域和频域信息的交换。接着,时域和频域部分分别进行各自的解码频域解码结束后利用ISTFT重新变换到时域,其结果和右侧的时域解码输出进行叠加得到最终结果,即分离后的人声、鼓声、Bass、其他

2.1 频域输入

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值