
机器学习
文章平均质量分 59
糖豆豆今天也要努力鸭
一个小菜鸡 就记录一下自己出现过的问题吧 仅供参考
展开
-
论文阅读:Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning(ECCV22)
论文阅读:Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning(ECCV22)原创 2023-03-24 21:12:01 · 567 阅读 · 1 评论 -
论文阅读:GPS-Net:Graph Property Sensing Network for Scene Graph Generation(CVPR20)+对focal loss的一些理解
论文阅读:GPS-Net:Graph Property Sensing Network for Scene Graph Generation(CVPR20)+对focal loss的一些理解原创 2022-04-06 10:55:33 · 1869 阅读 · 0 评论 -
论文阅读:Bridging Knowledge Graph to Generate Scene Graph(ECCV20)
论文阅读:Bridging Knowledge Graph to Generate Scene Graph(ECCV20)原创 2022-03-14 14:11:45 · 1210 阅读 · 0 评论 -
论文阅读:Knowledge-Embedded Routing Network for Scene Graph Generation(CVPR19)
论文阅读:Knowledge-Embedded Routing Network for Scene Graph Generation(CVPR19)原创 2022-03-09 11:08:36 · 771 阅读 · 0 评论 -
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)原创 2022-03-01 11:30:46 · 2990 阅读 · 0 评论 -
论文阅读:A Hierarchical Recurrent Approach to Predict SGs From A Visual-Attention-Perspective(CI19)
论文阅读:A Hierarchical Recurrent Approach to Predict SGs From A Visual-Attention-Perspective(CI19)原创 2022-02-24 21:19:25 · 1590 阅读 · 0 评论 -
论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)
论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)原创 2022-02-22 11:51:06 · 702 阅读 · 0 评论 -
论文阅读:PANet:A Context Based Predicate Association Network for Scene Graph Generation(ICME19)
论文阅读:PANet:A Context Based Predicate Association Network for Scene Graph Generation(ICME19)原创 2022-02-19 12:47:36 · 1701 阅读 · 0 评论 -
论文阅读:Zoom-Net:Mining Deep Feature Interactions for Visual Relationship Recognition(ECCV18)
论文阅读:Zoom-Net:Mining Deep Feature Interactions for Visual Relationship Recognition(ECCV18)原创 2022-02-13 12:07:00 · 1366 阅读 · 0 评论 -
论文阅读:ViP-CNN:Visual Phrase Guided Convolutional Nerual Network(CVPR17)
论文阅读:ViP-CNN:Visual Phrase Guided Convolutional Nerual Network(CVPR17)原创 2022-02-11 11:23:29 · 1662 阅读 · 1 评论 -
论文阅读:Detecting Visual Relationships Using Box Attention(ICCV19)
论文阅读:Detecting Visual Relationships Using Box Attention(ICCV19)原创 2022-02-05 22:09:01 · 1765 阅读 · 0 评论 -
论文阅读:LinkNet:Relational Embedding for Scene Graph(NIPS18)
论文阅读:LinkNet:Relational Embedding for Scene Graph(NIPS18)原创 2022-01-31 11:55:13 · 2640 阅读 · 0 评论 -
论文阅读:Detecting Unseen Relations Using Analogies(ICCV2019)
论文阅读:Detecting Unseen Relations Using Analogies(ICCV2019)原创 2022-01-29 22:02:58 · 2953 阅读 · 1 评论 -
论文阅读:Tackling the Challenges in Scene Graph Generation with Local-to-Glocal Interaction
论文阅读:Tackling the Challenges in Scene Graph Generation with Local-to-Global Interaction原创 2021-12-14 22:31:36 · 1276 阅读 · 1 评论 -
论文阅读:Energy Based Learning for Scene Graph Generation(CVPR2021)
论文阅读:Energy Based Learning for Scene Graph Generation(CVPR2021)原创 2021-12-07 22:15:43 · 3236 阅读 · 0 评论 -
论文阅读:Representation Learning for Scene Graph Completion via Jointly Structural and VE(IJCAI2018)
还是论文题目太长打不下了,最后的VE是visual embedding网络简称RLSV,分为两个模块1.视觉特征提取模块一幅图像经过ResNet50提取全局特征,再从全局特征切割出物体特征,但是因为投影后的尺度不同,使用双线性插值把较小的局部特征放大,让两个物体的局部特征大小相同,即得到vh和vt然后网络分为两支:上面一支:vh和vt各自经过两次卷积,得到vph和vpt下面一支:vh和vt拼接,经过一层卷积,再加入union box的空间特征,cat,再经过一层卷积,得到vpr2.分层投影模原创 2021-11-27 12:21:48 · 2434 阅读 · 0 评论 -
论文阅读:Contextual Translation Embedding for Visual Relationship Detection and SGG(PAMI2020)
还是论文题目太长打不下了(SGG:场景图生成)中心思想:p≈u-s-o1.目标检测2.视觉特征提取出于对论文上下文的理解,我觉得这里的主客体特征应该融合了fasterrcnn提取的视觉特征和主客体的位置特征3.谓语特征=union box特征-主语特征-宾语特征4.谓语特征经过两层fc得到视觉模块的谓语类别的置信度同时4’.谓语特征经过一层fc,主语和宾语分别做word embedding。5.在三个连续的时间步内分别以主语特征、谓语特征、宾语特征为输入,得到它们的hidden state原创 2021-11-24 22:06:14 · 388 阅读 · 0 评论 -
论文阅读:Deeply Supervised Multimodel Attentional Translation Embeddings for VRD(ICIP2019)
论文题目太长打不下了,最后的VRD是Visual Relationship Detection,视觉关系检测,任务是检测和定位图上的多对object,然后分别对每一对object的交互关系(predicate)进行分类。对于SGG来说,就相当于只做predicate classification。还是先放pipeline。一、目标检测最上面的两个箭头:提取单个物体的视觉特征下面的箭头:提取物体对组成的union box的视觉特征二、视觉关系预测1.spatio-linguistic Atte原创 2021-11-22 17:55:54 · 2327 阅读 · 0 评论 -
论文阅读:Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)
因为我的方向是场景图,所以仅介绍这篇论文中有关场景图的内容,不涉及VQA。(a)Feature Extraction先对输入图像进行目标检测,每个proposal的视觉特征x包括以下特征:ROIAlign feature(2048维),空间feature(8维),论文这里说视觉特征不局限于bbox,实例分割特征和全景特征也可以。(b)构建可学习的对称矩阵S(1)S的计算方法如下:f(xi,xj)称为对象相关性,g(·)称为依赖特定任务的特征(q是任务特征,在VQA中是用GRU编码的问题特征原创 2021-11-18 21:21:17 · 2628 阅读 · 0 评论 -
论文阅读:Spatial-Temporal Transformer for Dynamic Scene Graph Generation(ICCV2021)
前些日子作业多,就没看论文。组会上老师问我有没有用transformer做场景图的。我说没吧老师。然后师姐给我发了这篇。今天把这篇文章梳理完了,做个记录。这篇文章是做动态场景图的,就是由视频生成场景图。我之前看的都是基于静态图片的,也就是静态场景图。论文作者设计了一个Transformer,捕捉到了单个帧内各谓语表示的空间信息和相邻帧的时序信息。为什么要利用好时序信息呢?对于视频而言,前一帧对后一帧是有启发作用的,作者认为如果前一帧是人-holding-杯子这样的关系,那么很容易就能猜到后一帧是人-dri原创 2021-10-27 21:18:30 · 2217 阅读 · 0 评论 -
论文阅读:Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation(CVPR21)
Q原创 2021-09-23 20:46:20 · 529 阅读 · 2 评论 -
论文阅读:Graph R-CNN for Scene Graph Generation(ECCV18)
Graph R-CNN模型分为四个部分:(1)目标检测,得到可能包含目标的proposals(2)RePN(Relational Proposal Network):关系proposal网络。这个网络的作用是对复杂度为O(n)的物体对数量进行稀疏化,即剪枝。(如果目标检测网络检测出有n个proposal,那么所有可能的物体对就是n*(n-1),即复杂度为O(n))RePN计算的是任意一对物体的相关度,pi的意思是第i个结点(物体)的物体分类概率,上标o是object的意思。φ和ψ是映射函数(两层.原创 2021-09-15 11:27:24 · 594 阅读 · 0 评论 -
论文阅读:Detecting Visual Relationships with Deep Relational Network(CVPR17)
(1)目标检测,使用的是FasterRCNN(2)筛选成对的物体。如果一共有n个bounding box,那么一共有n(n-1)对可供选择的物体对。这么多对物体中,有些是很大概率没有意义的,比如离得太远的物体对,或者两个物体的类别让它们很难产生有意义的关系的这种情况(例如狗和雨伞)(3)Joint Recognition(联合认知)按照论文中给出的结构图,这一部分可以划分为左半部分的特征提取与融合,以及右半部分的DR-Net先说左半部分:FasterRCNN提取了每个bounding box的.原创 2021-09-14 11:57:39 · 243 阅读 · 0 评论 -
论文阅读:Scene Graph Generation by Iterative Message Passing(CVPR17)
论文阅读:Scene Graph Generation by Iterative Message Passing(CVPR17)原创 2021-09-10 17:30:06 · 455 阅读 · 0 评论 -
论文阅读:Visual Relation Detection with Language Prior(CVPR16)
训练:模块1:visual appearance module,提取视觉特征先训练一个CNN用于对物体进行分类,即Pi(O1)/Pj(O2),然后再训练一个CNN用于对谓词(共70类)进行分类,输入的东西是O1O2的union bounding box,即CNN(O1,O2)。zk,sk的k=1,2,…K,K就是谓词的种类总数(70),这样一来,整个模块得到的就是在主客体分别为O1,O2的前提下,根据它们的视觉特征,对应70类谓词的概率。visual module这个模块是将CNN featur.原创 2021-09-08 16:36:07 · 237 阅读 · 0 评论 -
论文阅读:Visual Translation Embedding Network for Visual Relation Detection(CVPR17)
中间部分的绿框和下面的红框是一对关系的主客体,分别对它们进行物体类别预测、位置编码(这两个目标检测网络都可以实现),最后一个橙色的是bounding box对应到原feature map的roi feature,使用的方法是双线性插值。圆圈表示的意思就是cat,即物体类别、位置特征、roi feature简单地cat在一起,再进行总的一个特征提取,这就是feature extractor layer干的事。将主客体的特征相减,再softmax,得到的就是主客体的关系类别了。...原创 2021-09-06 17:15:11 · 232 阅读 · 0 评论 -
论文阅读:Neural Motifs Scene Graph Parsing with Global Context(CVPR18)
MOTIF把场景图的生成分解成了以下三部分:(1)第一部分:Pr(B | I),给定image输出bounding box,标准的目标检测模型(2)第二部分:Pr(O | B, I),给定image和bounding box,输出对象的类别标签(3)第三部分:Pr(R | B, O, I),给定image,bounding box和对象的类别标签,预测关系类别(给定物体类别标签是因为作者发现确定主客体的类别,对最终的关系预测有很大的作用)具体模型:(1)第一部分:标准目标检测,这里论文用的是Fa原创 2021-09-06 11:19:14 · 541 阅读 · 0 评论 -
pytorch深度学习实操小tips(不再更新)
最近开始上深度学习课了,算是系统性的巩固学习。在写作业的时候,不报错结果却离谱的情况简直太绝望了。随时记录一下。1.手动实现各种loss不要除batch_size在老师的PPT里,loss都是这种形式,即求和再除n(n是样本总数)实际操作的时候是不除n的,一个batch的loss当然是这个batch中每个样本的loss的加和,至于ppt为什么这么写,我猜这个l(θ)大概是针对每个样本的吧。。手动实现crossEntropy代码如下:def crossEntropy(y_hat, y):原创 2021-07-22 11:50:40 · 721 阅读 · 0 评论 -
pytorch报错详解:RuntimeError: Trying to backward through the graph a second time
代码如下,当我尝试对y3进行第二次梯度计算时,报了这个错import torchx = torch.tensor([1], dtype=torch.float32, requires_grad=True)y1 = x ** 2y2 = x ** 3y3 = y1 + y2y3.backward() print(x.grad)x.grad.data.zero_()y3.backward()print(x.grad)百度了一下问题原因和解决方法,解决方法:在第一次backward中加一原创 2021-07-17 11:53:59 · 27744 阅读 · 13 评论 -
fatal error: cusparse.h: No such file or directory compilation terminated. error: command ‘/usr/loca
写在前面:我是用pycharm远程连接矩池云的GPU遇到了这个问题。前面安装包都很顺利,就是最后安装maskrcnn-benchmark的时候出问题了,一直在报错fatal error: cusparse.h: No such file or directorycompilation terminated.error: command ‘/usr/local/cuda-9.0/bin/nvcc’ failed with exit status 1经过一番Google,总算解决了这个问题:解决方法原创 2021-03-21 22:54:13 · 3225 阅读 · 0 评论 -
tensor.scatter_函数图解
看了好些教程,都是文字版的,感觉还是图更清晰,也好理解。PyTorch 中,一般函数加下划线代表直接在原来的 Tensor 上修改scatter(dim, index, src) 的参数有 3 个dim:沿着哪个维度进行索引index:用来 scatter 的元素索引src:用来 scatter 的源元素,可以是一个标量或一个张量先看两个例子:dim=0:input = torch.rand(2, 5)index=torch.tensor([[0, 1, 2, 0, 0], [2, 0,原创 2021-02-15 11:54:56 · 1877 阅读 · 5 评论 -
torch.stack和torch.cat区别及用法
用法:torch.stack((tensor1,tensor2),dim=?)torch.cat((tensor1,tensor2),dim=?)dim默认为0首先要知道dim代表什么意思:一般情况下,dim最多包括batch_size,channel,height,width这四项对应下标0,1,2,3torch.stack和torch.cat都是用于拼接的,核心不同在于使用stack后,原来的张量会增加一维,比如把两个3 * 3(二维)的tensor用torch.stack在dim0拼接,原创 2021-01-25 22:59:55 · 749 阅读 · 0 评论 -
pytorch_机器学习高维线性拟合权重衰减demo复现_tensor的view函数
今天的第二篇博客。在复现下一个高维线性拟合demo的时候又双叒叕遇到了一个问题。好家伙,我再次好家伙。先上代码再详说,这次是一个从零开始实现权重衰减的demo:import torchimport numpy as npimport d2lzh_pytorch.util as utilimport torch.utils.data as Data# 1.生成特征# y=0.05+∑0.01*xi+随机噪声n_train=20 # 20个训练数据n_test=100 # 100个测试数原创 2021-01-16 22:46:29 · 369 阅读 · 0 评论 -
pytorch_机器学习多项式函数拟合demo复现_损失nan 训练参数为nan_学习率问题
复现多项式函数拟合这个demo时遇见的问题。先贴代码再详说:import numpy as npimport torchimport torch.nn as nnimport torch.utils.data as Data# 1.生成特征n_train,n_test=100,100features=torch.tensor(np.random.normal(0,1,(n_train+n_test,1)),dtype=torch.float32)poly_features=torch.c原创 2021-01-16 12:05:57 · 344 阅读 · 0 评论 -
maskrcnn benchmark+win10+pytorch1.4+CUDA10.1安装记录
第一次接触机器学习的代码,老师让跑一个场景图的代码,跑了一个星期没跑出来0^0…场景图的目标检测用的maskrcnn,就想着先单独跑一半吧,结果跑出来了。。。记录一下安装过程。。1.安装Anaconda我安的版本是4.6.14,3.6的python,这里建议如果之前有安装python的先把原来的python卸了,anaconda里自带python环境。之前看别人博客的时候有出现两个python在一起出现问题的情况。2.新建虚拟环境打开anaconda prompt,输入conda create -n原创 2020-12-04 12:25:45 · 1526 阅读 · 5 评论 -
李宏毅老师机器学习RMSProp中关于learning rate的解释与思考
就是这张PPT让我非常疑惑,因为上一张讲的是“平坦的地方learning rate越大,陡峭的地方learning rate越小”,怎么换了下一张就变了?绿色明显比红色要平坦,learning rate应该大啊,为什么ppt上写的是小呢?如果也有人这么想的话,那么我们都犯了一个关键性的错误。所谓“平坦的地方learning rate越大”,这个是Adagrad的思想,由Adagrad的公式决定。这里贴个图。但是真正的learning rate的更新可不是这样的,在陡峭的时候,说明离收敛越远,所以..原创 2020-11-15 12:00:34 · 556 阅读 · 0 评论 -
CNN的卷积执行过程图解
最近在看李宏毅老师的机器学习,讲到CNN这里的时候对下面这张PPT怎么都想不明白,经过一番网上冲浪,终于搞明白了。原PPT如下。核心疑问:25 * 13 * 13的特征图在经过50个3 * 3的filter之后是怎么变成50 * 11 * 11的特征图的?这一切要从CNN是怎么做卷积的说起。对上图PPT的例子分析如下:(1)输入图像为灰度图(只有一个channel),大小为28 * 28,每经过一个filter的卷积操作后,生成一张特征图。一共有25个filter,生成25张特征图。同时图像大小被卷原创 2020-11-13 11:00:24 · 1469 阅读 · 1 评论