MAttNet代码阅读

最新推荐文章于 2024-08-12 08:41:54 发布

hxz621

最新推荐文章于 2024-08-12 08:41:54 发布

阅读量621

点赞数

分类专栏：多模态代码阅读文章标签： python

本文链接：https://blog.youkuaiyun.com/hxz621/article/details/121010382

版权

本文解析了refe.py中的关键代码，介绍了如何从instances.json处理图片数据，生成图片字典，以及如何从refcoco.p处理文本数据，创建文本字典。重点展示了ref到ann和ann到ref的映射过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MAttNet代码阅读-1

refe.py代码阅读(对图片数据和文本数据的预处理）

refe.py代码阅读(对图片数据和文本数据的预处理）

图片部分与目标检测相同，生成字典（instances.json文件），文本部分(refcoco.p)生成文本的字典

文本字典

refer对于文本的处理得到的文本的字典（对应refcoco(unc).p来理解）字典的可视化在这里插入图片描述

处理得到图片和标签的字典

# fetch info from instances
		# 利用的是instances.json这个文件的信息 主要是处理的图片的相关信息
		Anns, Imgs, Cats, imgToAnns = {
   }, {
   }, {
   }, {
   }
		# annotations 是一个很大的列表 包括全部图片的标签的信息 每个框的信息都有对应的图片的id 具体的坐标 分割的像素点的信息 对应图片的id 类别信息等
		for ann in self.data['annotations']:
			Anns[ann['id']] = ann   # 建立anno的字典 可以通过anno的id来得到anno的信息（每一个框是一个信息
			# .get()返回字典中关键字对应的词 imgToAnns中有ann

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hxz621

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

MAttNet- Modular Attention Network for Referring Expression Comprehension

lulalalulalulale的博客

03-05

2094

出版年份:2018\ 出版期刊:CVPR2018\ 影响因子:\ 文章作者:Yu Licheng,Lin Zhe,Shen Xiaohui,Yang Jimei,Lu Xin,Bansal Mohit,Berg Tamara L.最近的大多数研究都将表达式视为一个单一的单元然而，这些工作大多使用所有特征(目标对象特征、位置特征和上下文特征)的简单串联作为输入，使用单个LSTM对整个表达式进行编码/解码，忽略了不同类型指称表达式之间的差异。模块化网络我们提出了第一个用于一般指称表达式理解任务的模块化网络

GRES- Generalized Referring Expression Segmentation

lulalalulalulale的博客

03-04

1217

GRES: Generalized Referring Expression Segmentation

参与评论您还未登录，请先登录后发表或查看评论

MAttNet

weixin_40292908的博客

11-22

1692

PyTorch Implementation of MAttNet Introduction This repository is Pytorch implementation of MAttNet: Modular Attention Network for Referring Expression Comprehension in CVPR 2018. Refering Expressions...

REC论文阅读(一)：MAttNet

qq_40999757的博客

07-03

1859

文章目录写在前面论文笔记论文背景主要贡献实验部分可借鉴的思路写在前面最近开始做Referring Expression Comprehension方向的研究，很多论文看了以后就忘了，再解决相关问题时也想不起来论文的思路（可能读的时候就没看出来：）。为了跳出当前这种困境，我打算重新温习下读过的一些论文，并再写作的过程中整理相关思路，为以后有更好的idea打好坚实的基础。因此，带着这个目的，我的文章着眼于论文的思路、创新点以及可以借鉴的地方。废话不多说了，开始写文章！论文笔记论文背景 MAttNet这篇

CVPR2018 MAttNet源码攻坚

wgqbeam的博客

09-27

338

MAttNet源码攻坚 Training Prepare the training and evaluation data by running tools/prepro.py: python tools/prepro.py --dataset refcoco --splitBy unc prepro.py脚本 289行：if __name__ == '__main__':,__name__是Python脚本的内置属性变量，这行语句的意思是只有当该脚本被直接执行时（区别于被其他脚本import调用

开源项目 MetNet 使用教程

最新发布

gitblog_00583的博客

08-12

496

开源项目 MetNet 使用教程项目地址:https://gitcode.com/gh_mirrors/me/metnet 一、项目目录结构及介绍 MetNet 是一个基于 PyTorch 的神经天气模型实现，源自 Google 研究的创新工作。本节将概述该仓库的主要目录结构。 . ├── README.md # 项目说明文件，包含了快速入门指导和重要信息。 ├── requi...

Modular Attention Network for Referring Expression Comprehension——代码阅读第一天

01-06

今天是阅读2018cvpr论文MAttNet源码的第一天，由于第一次读论文源码有很多不懂的地方，在此记录每天的学习进度，希望可以不断提高自身能力。该论文训练的第一步是准备训练数据，因此先从tools/propro.py开始。论文...

awesome-grounding:很棒的接地

05-13

我将仔细阅读本文，然后添加/删除它。目录贡献随时通过电子邮件（ ark.sadhu2904@gmail.com ）与我联系，或者提出问题或提交请求请求。要通过拉取请求添加新纸张：分叉仓库，更改自述文件。将新纸张放在...

【AI视野·今日CV 计算机视觉论文速览第172期】Tue, 10 Dec 2019

TomRen

12-14

3277

AI视野·今日CV 计算机视觉论文速览第172期 --点云采样 --点云生成 --点云网络压缩 --人脸美妆 --目标检测 --纹理生成

论文简读 MetNet: A Neural Weather Model for Precipitation Forecasting

Runner_of_nku的博客

04-09

2978

摘要：天气预报是一项长期的科学挑战，具有直接的社会和经济影响。该任务适合于连续存储的大量数据和具有长期依赖关系的丰富时空结构。我们引入了MetNet，这是一个神经网络，它以1 km2的高空间分辨率和2分钟的时间分辨率（以秒为单位）预测未来8小时的降水。 MetNet将雷达和卫星数据作为输入并预测提前期，并生成概率降水图。该体系结构使用轴向自我关注来聚集来自对应于一百万平方公里的大型输入...

UNITER:ECCV 2020研究论文“ UNITER”的研究代码

03-21

UNITER：通用图像表达学习这是的官方存储库（ECCV 2020）。此存储库当前支持微调NLVR2，，，上的，对和图像文本检索，以及（RefCOCO，RefCOCO +和RefCOCO-g）。基于UNITER的训练点和基于UNITER的大训练点均已发布。还提供带域内数据的基于UNITER的预训练。此某些代码是从，，和提供的开源实现中复制/修改的。使用提取图像特征。要求我们提供Docker映像，以便于复制。请安装以下内容：（418+），（19.03+），。我们的脚本要求用户具有以便可以在没有sudo的情况下运行docker命令。我们仅支持带有NVIDIA GPULinux。我们在Ubuntu 18.04和V100卡上进行测试。我们使用混合精度训练，因此建议使用带有Tensor Core的GPU。快速开始注意：请运行bash scripts/

Visual Grounding任务常用数据集介绍RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities

热门推荐

snowxiao的博客

06-03

1万+

Ref COCO的表达式分别为120,624 / 10,834 / 5,657 / 5,095 RefCOCO+的表达式分别为120,191 / 10,758 / 5,726 / 4,889。它在训练集、验证集和测试集中分别有54,127 / 5,842 / 60,103个引用表达式。testA中的图像包含多人，testB中的图像包含所有其他对象。RefCOCO +中的查询不包含绝对的方位词，如描述对象在图像中位置的右边。是三个从MSCOCO中选取图像和参考对象的可视化接地数据集。

UnIVAL：第一个支持图像、视频、音频和文本任务的大一统模型！

zenRRan的博客

08-03

344

UnIVAL，这是第一个能够支持图像、视频和音频文本任务的统一模型！进NLP群—>加入NLP交流群大型语言模型 (LLM) 使得对通才代理的雄心勃勃的追求不再是一个幻想。构建此类通用模型的一个关键障碍是任务和模式的多样性和异质性。一种有希望的解决方案是统一，允许在一个统一的框架内支持无数的任务和模式。虽然在海量数据集上训练的大型模型（例如 Flamingo（Alayrac 等人，2022））...

Visual grounding-视觉定位任务介绍

张小殊的博客

03-12

7091

为了解决多模态人工智能系统中语言理解与视觉感知之间的交互与融合问题，以实现更智能、更灵活的多模态数据处理和理解能力。视觉定位通过将自然语言描述与图像内容相匹配，实现了对图像中对象、场景和行为的准确理解，为图像标注、视觉问答等任务提供了基础。本文对视觉定位的常用方法进行简单介绍。

Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos

afanti_1的博客

04-18

1769

Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos（用于视频中的目标物指代理解的）（具有语义注意的）联合接地网络

视觉感知、Vision Grounding、目标检测、Transformer

qq_40910191的博客

11-10

1591

本文主要是对视觉定位方面的一些文章

零样本参考图像分割 ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension 论文阅读笔记

乄洛尘

05-20

1826

重新训练一个参考表达式理解模型 referring expression comprehension (ReC) 以适应新的目标域需要收集参考表达式和相应的 bounding boxes(BBox)。虽然大规模预训练模型在其他的目标域上可能会有用，但是以 Zero-shot 的方式应用在 ReC 这类复杂任务上效果不太好。本文提出一种 Zero-shot 模型 ReCLIP 用于 ReC，其中包含一个区域打分方法通过裁剪和模糊来对目标 Proposals 进行打分，还包含一个空间关系解析器用于应对不同的空间

指称表达理解（REC）——MAttNet论文复现，以及踩过的坑！

weixin_45247236的博客

07-03

2934

MAttNet论文复现一、论文连接以及代码地址论文链接：《MAttNet: Modular Attention Network for Referring Expression Comprehension》 in CVPR 2018 代码链接：https://github.com/lichengunc/MAttNet 二、预先准备（Prerequisites） python2.7 这个简单！由于组里的服务器默认版本为python3.5，所以你可以用anaconda创建一个python==2.7的虚

深入探究视觉与语言的接地技术

- MATTNet演示：提供了一个接地技术的演示案例，通过这个案例可以直观地了解接地技术的应用效果。 #### 接地技术的研究方向 - 视觉理解（video-understanding）：理解视频中的视觉内容，包括场景识别、行为理解、...