Steeping White tea-优快云博客

原创多模态论文3：LAVT模型

LAVT模型，一种用于指称图像分割的语言感知视觉Transformer。传统方法通常在特征编码后才进行跨模态融合，而LAVT创新地在视觉Transformer编码器中早期融合语言和视觉特征。通过PWAM模块计算跨模态注意力，并结合LG模块自适应控制语言信息流向。该方法仅需轻量级解码器，在三个基准测试上均优于现有技术。消融实验表明，残差式融合方式能有效保留预训练视觉特征的性能。LAVT通过充分利用Transformer层的多模态上下文建模能力，实现了更准确的指称分割效果。

2025-07-07 17:09:48 808

原创多模态论文2：Recurrent Multimodal Interaction for Referring Image Segmentation循环多模态交互 RMI模型

本文是一种循环多模态交互模型(RMI)，用于指称图像分割任务，与之前方法独立处理文本和图像不同，该模型采用双层LSTM结构，在读取每个单词时即与视觉特征进行交互：底层LSTM编码语义信息，上层卷积多模态LSTM(mLSTM)融合语言、视觉和空间特征，这种序列化交互方式更符合人类处理模式，能有效捕捉长程依赖关系

2025-05-28 17:11:52 1084

原创多模态论文1：自然语言表达式分割（Segmentation from Natural Language Expressions）

视觉文本融合进行图像分割——这篇文章提出了一种端到端的递归卷积网络模型，用于解决自然语言表达式引导的图像分割问题。该模型通过LSTM编码文本表达式，CNN提取图像特征，并将两者融合后通过全卷积网络生成像素级分割掩码。

2025-05-26 19:53:50 705 1

山东大学软件学院数据结构课设-校园导航系统，使用堆优化的dijkstra算法、dfs算法与held-karp算法，通过状态压缩dp方法完成旅行商问题

该课设已获优，一周速成所以界面较简陋，可以考虑使用Qt重建项目可通过山东大学数据结构课程设计——校园导航\数据结构课程设计.exe可执行程序\数据结构课程设计.exe可执行程序.exe来执行项目本项目通过graphics图形库完成，请自行下载graphics图形库课设要求：问题：用无向网表示校园景点平面图，图中顶点表示主要景点，存放景点的编号、名称、简介等信息，图中的边表示景点间的道路，存放路径长度等信息。要求能够回答有关景点介绍、游览路径等问题基本要求： ① 查询任意景点的相关信息； ② 查询图中任意两个景点间的最短路径。 ③ 查询图中任意两个景点间的所有路径。 ④ 增加、删除、更新有关景点和道路的信息。（选作）* 求多个景点的最佳（最短）游览路径。说明：本系统是一个基于图形界面的校园导游系统，支持自定义景点道路，旨在为用户提供校园内景点的查询、路径规划、景点管理等功能。系统通过图形化界面展示校园地图，用户可以通过点击按钮进行景点的增删改查、路径的规划与管理等操作。系统支持最短路径查询、所有路径查询、多景点最短路径规划等功能，并提供了数据保存与加载功能，确保用户的操作可以持久化保存。

2025-07-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 多模态论文3：LAVT模型