自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 LightM-UNet:Mamba+Unet开启轻量视觉模型新时代

UNet [16] 作为一种成熟的医学图像分割算法,在与医学器官和病变相关的各种分割任务中得到了广泛应用,涵盖了各种医学图像模态。其对称的 ∪形编码器-解码器架构以及完整的跳跃连接为分割模型奠定了基础,由此也演变出大量基于编码器-解码器结果的分割模型和图像生成模型。

2025-03-18 21:05:33 919

原创 多模态模型架构演变与相关知识总结

多模态学习(Multimodal Learning)是融合文本、图像、音频、视频等多种模态数据的机器学习方法,通过融合多种数据模态来训练模型,从而提高模型的感知与理解能力,实现跨模态的信息交互与融合,旨在提升模型对复杂现实场景的理解与生成能力。文章主要从模态表示、多模态融合、跨模态对齐和多模态模型架构四个方面,系统地总结了多模态学习的相关知识。

2025-03-18 03:13:38 701

原创 Transformers without Normalization:归一化层在 Transformer 架构中必要性讨论

2025年3月14日何凯明大神发表新作Transformers without Normalization,讨论了归一化层(Normalization layers)在Transformer架构模型中的必要性。

2025-03-18 01:10:27 1448

原创 Transformer 结构解析:开启序列处理的新时代

因为 Transformer 的编码器 - 解码器结构输出的特征向量维度是固定的,而最终要预测的是词汇表中的某个 token,所以需要把特征向量映射到和词汇表大小相同的维度,每个维度对应词汇表中的一个 token。计算如下图所示,注意 X, Q, K, V 的每一行都表示一个单词。之后,Multi-Head Attention 将它们拼接在一起 (Concat),然后传入一个Linear层,得到 Multi-Head Attention 最终的输出Z,矩阵Z与其输入的矩阵X的维度相同。

2025-03-17 23:50:06 679

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除