深度学习基础模块
1 VAE
原理:分为编码器和解码器,编解码器中间是隐变量
自编码器输出近似分布,用单位高斯来监督这个近似分布,loss为kl散度
解码时用近似分布z对隐变量采样,然后输入解码器,最后用图片作为loss
特点:
(1)用重参数化解决梯度传播中断的问题

同时监督隐变量loss和重建loss,最终的特征分布最好。

典型用途
参考链接:https://www.bilibili.com/video/BV1Ns4y1J7tK/?spm_id_from=333.337.search-card.all.click&vd_source=3e27170b4eb381f647a64b00dc0a25ba
2 rope旋转位置编码
原理:经典正余弦位置编码是加到特征向量上,rope是乘到特征向量上,相当于是对特征向量进行了旋转



特点:
(1)融入了相对位置信息
(2)便于外推
参考链接:
https://www.bilibili.com/video/BV1Mj421R7JQ?spm_id_from=333.788.player.switch&vd_source=3e27170b4eb381f647a64b00dc0a25ba&trackid=web_related_0.router-related-2206419-7clql.1760529369619.656
https://www.bilibili.com/video/BV1vgpBzzEh5/?spm_id_from=333.337.search-card.all.click&vd_source=3e27170b4eb381f647a64b00dc0a25ba

被折叠的 条评论
为什么被折叠?



