自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 多模态论文3:LAVT模型

LAVT模型,一种用于指称图像分割的语言感知视觉Transformer。传统方法通常在特征编码后才进行跨模态融合,而LAVT创新地在视觉Transformer编码器中早期融合语言和视觉特征。通过PWAM模块计算跨模态注意力,并结合LG模块自适应控制语言信息流向。该方法仅需轻量级解码器,在三个基准测试上均优于现有技术。消融实验表明,残差式融合方式能有效保留预训练视觉特征的性能。LAVT通过充分利用Transformer层的多模态上下文建模能力,实现了更准确的指称分割效果。

2025-07-07 17:09:48 808

原创 多模态论文2:Recurrent Multimodal Interaction for Referring Image Segmentation循环多模态交互 RMI模型

本文是一种循环多模态交互模型(RMI),用于指称图像分割任务,与之前方法独立处理文本和图像不同,该模型采用双层LSTM结构,在读取每个单词时即与视觉特征进行交互:底层LSTM编码语义信息,上层卷积多模态LSTM(mLSTM)融合语言、视觉和空间特征,这种序列化交互方式更符合人类处理模式,能有效捕捉长程依赖关系

2025-05-28 17:11:52 1084

原创 多模态论文1:自然语言表达式分割(Segmentation from Natural Language Expressions)

视觉文本融合进行图像分割——这篇文章提出了一种端到端的递归卷积网络模型,用于解决自然语言表达式引导的图像分割问题。该模型通过LSTM编码文本表达式,CNN提取图像特征,并将两者融合后通过全卷积网络生成像素级分割掩码。

2025-05-26 19:53:50 705 1

山东大学软件学院数据结构课设-校园导航系统,使用堆优化的dijkstra算法、dfs算法与held-karp算法,通过状态压缩dp方法完成旅行商问题

该课设已获优,一周速成所以界面较简陋,可以考虑使用Qt重建项目 可通过山东大学数据结构课程设计——校园导航\数据结构课程设计.exe可执行程序\数据结构课程设计.exe可执行程序.exe来执行项目 本项目通过graphics图形库完成,请自行下载graphics图形库 课设要求: 问题:用无向网表示校园景点平面图,图中顶点表示主要景点,存放景点的编号、名称、简介等信息,图中的边表示景点间的道路,存放路径长度等信息。要求能够回答有关景点介绍、游览路径等问题 基本要求: ① 查询任意景点的相关信息; ② 查询图中任意两个景点间的最短路径。 ③ 查询图中任意两个景点间的所有路径。 ④ 增加、删除、更新有关景点和道路的信息。 (选作)* 求多个景点的最佳(最短)游览路径。 说明: 本系统是一个基于图形界面的校园导游系统,支持自定义景点道路,旨在为用户提供校园内景点的查询、路径规划、景点管理等功能。系统通过图形化界面展示校园地图,用户可以通过点击按钮进行景点的增删改查、路径的规划与管理等操作。系统支持最短路径查询、所有路径查询、多景点最短路径规划等功能,并提供了数据保存与加载功能,确保用户的操作可以持久化保存。

2025-07-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除