- 博客(4)
- 收藏
- 关注
原创 LightM-UNet:Mamba+Unet开启轻量视觉模型新时代
UNet [16] 作为一种成熟的医学图像分割算法,在与医学器官和病变相关的各种分割任务中得到了广泛应用,涵盖了各种医学图像模态。其对称的 ∪形编码器-解码器架构以及完整的跳跃连接为分割模型奠定了基础,由此也演变出大量基于编码器-解码器结果的分割模型和图像生成模型。
2025-03-18 21:05:33
919
原创 多模态模型架构演变与相关知识总结
多模态学习(Multimodal Learning)是融合文本、图像、音频、视频等多种模态数据的机器学习方法,通过融合多种数据模态来训练模型,从而提高模型的感知与理解能力,实现跨模态的信息交互与融合,旨在提升模型对复杂现实场景的理解与生成能力。文章主要从模态表示、多模态融合、跨模态对齐和多模态模型架构四个方面,系统地总结了多模态学习的相关知识。
2025-03-18 03:13:38
701
原创 Transformers without Normalization:归一化层在 Transformer 架构中必要性讨论
2025年3月14日何凯明大神发表新作Transformers without Normalization,讨论了归一化层(Normalization layers)在Transformer架构模型中的必要性。
2025-03-18 01:10:27
1448
原创 Transformer 结构解析:开启序列处理的新时代
因为 Transformer 的编码器 - 解码器结构输出的特征向量维度是固定的,而最终要预测的是词汇表中的某个 token,所以需要把特征向量映射到和词汇表大小相同的维度,每个维度对应词汇表中的一个 token。计算如下图所示,注意 X, Q, K, V 的每一行都表示一个单词。之后,Multi-Head Attention 将它们拼接在一起 (Concat),然后传入一个Linear层,得到 Multi-Head Attention 最终的输出Z,矩阵Z与其输入的矩阵X的维度相同。
2025-03-17 23:50:06
679
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人