- 博客(3)
- 收藏
- 关注
转载 Tacotron
也就是把卷积层输出的和embeding之后的序列相加起来。encoder模块主要是为了得到输入文本的一个很好的表示,encode的输入是将文本转换为one-hot向量,然后经过一个pre-net的网络结构,接着讲pre-net网络的输出输入到CBHG模块中,最后从CBHG中输出的就是输入的text的一个健壮的表示序列。注意:由于每个字符在发音的时候,可能对应了多个帧,因此每个GRU单元输出为多个帧的音频文件,paper上说在decoder的每一步时,不仅仅预测1帧的数据,而是预测多个费重叠的帧。
2025-01-04 00:38:59
120
原创 unet医学
在编码器和解码器之间,UNet还引入了跳连机制,将编码器中相应层的特征与解码器相应层的特征进行连接,以帮助保留更多的空间信息和细节特征。将神经元细胞的纹理作为前景,其它作为背景。# 裁剪时,先计算e与d在高和宽方向的差距diffY和diffX,然后对e高方向进行裁剪,具体方法是两边分别裁剪diffY的一半,编码器使用卷积层和池化层来逐渐减小特征图的尺寸和维度,同时增加特征图的通道数,以便提取输入图像的高级别特征。# e是来自编码器部分的特征图,d是来自解码器部分的特征图,它们的形状都是[B,C,H,W]
2025-01-04 00:24:57
921
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人