- 博客(3)
- 收藏
- 关注
原创 多模态论文3:LAVT模型
LAVT模型,一种用于指称图像分割的语言感知视觉Transformer。传统方法通常在特征编码后才进行跨模态融合,而LAVT创新地在视觉Transformer编码器中早期融合语言和视觉特征。通过PWAM模块计算跨模态注意力,并结合LG模块自适应控制语言信息流向。该方法仅需轻量级解码器,在三个基准测试上均优于现有技术。消融实验表明,残差式融合方式能有效保留预训练视觉特征的性能。LAVT通过充分利用Transformer层的多模态上下文建模能力,实现了更准确的指称分割效果。
2025-07-07 17:09:48
808
原创 多模态论文2:Recurrent Multimodal Interaction for Referring Image Segmentation循环多模态交互 RMI模型
本文是一种循环多模态交互模型(RMI),用于指称图像分割任务,与之前方法独立处理文本和图像不同,该模型采用双层LSTM结构,在读取每个单词时即与视觉特征进行交互:底层LSTM编码语义信息,上层卷积多模态LSTM(mLSTM)融合语言、视觉和空间特征,这种序列化交互方式更符合人类处理模式,能有效捕捉长程依赖关系
2025-05-28 17:11:52
1084
原创 多模态论文1:自然语言表达式分割(Segmentation from Natural Language Expressions)
视觉文本融合进行图像分割——这篇文章提出了一种端到端的递归卷积网络模型,用于解决自然语言表达式引导的图像分割问题。该模型通过LSTM编码文本表达式,CNN提取图像特征,并将两者融合后通过全卷积网络生成像素级分割掩码。
2025-05-26 19:53:50
705
1
山东大学软件学院数据结构课设-校园导航系统,使用堆优化的dijkstra算法、dfs算法与held-karp算法,通过状态压缩dp方法完成旅行商问题
2025-07-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅