机器学习_糖豆豆今天也要努力鸭的博客-优快云博客

机器学习

关注

文章平均质量分 59

关注数：文章数：37 文章阅读量：77676 文章收藏量：81

作者: 糖豆豆今天也要努力鸭

一个小菜鸡就记录一下自己出现过的问题吧仅供参考

展开

论文阅读：Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning(ECCV22)

论文阅读：Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning(ECCV22)

原创 2023-03-24 21:12:01 · 567 阅读 · 1 评论
论文阅读：GPS-Net：Graph Property Sensing Network for Scene Graph Generation(CVPR20)+对focal loss的一些理解

论文阅读：GPS-Net：Graph Property Sensing Network for Scene Graph Generation(CVPR20)+对focal loss的一些理解

原创 2022-04-06 10:55:33 · 1869 阅读 · 0 评论
论文阅读：Bridging Knowledge Graph to Generate Scene Graph(ECCV20)

论文阅读：Bridging Knowledge Graph to Generate Scene Graph(ECCV20)

原创 2022-03-14 14:11:45 · 1210 阅读 · 0 评论
论文阅读：Knowledge-Embedded Routing Network for Scene Graph Generation(CVPR19)

论文阅读：Knowledge-Embedded Routing Network for Scene Graph Generation(CVPR19)

原创 2022-03-09 11:08:36 · 771 阅读 · 0 评论
论文阅读：Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

论文阅读：Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

原创 2022-03-01 11:30:46 · 2990 阅读 · 0 评论
论文阅读：A Hierarchical Recurrent Approach to Predict SGs From A Visual-Attention-Perspective(CI19)

论文阅读：A Hierarchical Recurrent Approach to Predict SGs From A Visual-Attention-Perspective(CI19)

原创 2022-02-24 21:19:25 · 1590 阅读 · 0 评论
论文阅读：Sketching Image Gist：Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)

论文阅读：Sketching Image Gist：Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)

原创 2022-02-22 11:51:06 · 702 阅读 · 0 评论
论文阅读：PANet：A Context Based Predicate Association Network for Scene Graph Generation(ICME19)

论文阅读：PANet：A Context Based Predicate Association Network for Scene Graph Generation(ICME19)

原创 2022-02-19 12:47:36 · 1701 阅读 · 0 评论
论文阅读：Zoom-Net：Mining Deep Feature Interactions for Visual Relationship Recognition(ECCV18)

论文阅读：Zoom-Net：Mining Deep Feature Interactions for Visual Relationship Recognition(ECCV18)

原创 2022-02-13 12:07:00 · 1366 阅读 · 0 评论
论文阅读：ViP-CNN:Visual Phrase Guided Convolutional Nerual Network(CVPR17)

论文阅读：ViP-CNN:Visual Phrase Guided Convolutional Nerual Network(CVPR17)

原创 2022-02-11 11:23:29 · 1662 阅读 · 1 评论
论文阅读：Detecting Visual Relationships Using Box Attention(ICCV19)

论文阅读：Detecting Visual Relationships Using Box Attention(ICCV19)

原创 2022-02-05 22:09:01 · 1765 阅读 · 0 评论
论文阅读：LinkNet：Relational Embedding for Scene Graph(NIPS18)

论文阅读：LinkNet：Relational Embedding for Scene Graph(NIPS18)

原创 2022-01-31 11:55:13 · 2640 阅读 · 0 评论
论文阅读：Detecting Unseen Relations Using Analogies(ICCV2019)

论文阅读：Detecting Unseen Relations Using Analogies(ICCV2019)

原创 2022-01-29 22:02:58 · 2953 阅读 · 1 评论
论文阅读：Tackling the Challenges in Scene Graph Generation with Local-to-Glocal Interaction

论文阅读：Tackling the Challenges in Scene Graph Generation with Local-to-Global Interaction

原创 2021-12-14 22:31:36 · 1276 阅读 · 1 评论
论文阅读：Energy Based Learning for Scene Graph Generation(CVPR2021)

论文阅读：Energy Based Learning for Scene Graph Generation(CVPR2021)

原创 2021-12-07 22:15:43 · 3236 阅读 · 0 评论
论文阅读：Representation Learning for Scene Graph Completion via Jointly Structural and VE(IJCAI2018)

还是论文题目太长打不下了，最后的VE是visual embedding网络简称RLSV，分为两个模块1.视觉特征提取模块一幅图像经过ResNet50提取全局特征，再从全局特征切割出物体特征，但是因为投影后的尺度不同，使用双线性插值把较小的局部特征放大，让两个物体的局部特征大小相同，即得到vh和vt然后网络分为两支：上面一支：vh和vt各自经过两次卷积，得到vph和vpt下面一支：vh和vt拼接，经过一层卷积，再加入union box的空间特征，cat，再经过一层卷积，得到vpr2.分层投影模

原创 2021-11-27 12:21:48 · 2434 阅读 · 0 评论
论文阅读：Contextual Translation Embedding for Visual Relationship Detection and SGG(PAMI2020)

还是论文题目太长打不下了（SGG：场景图生成）中心思想：p≈u-s-o1.目标检测2.视觉特征提取出于对论文上下文的理解，我觉得这里的主客体特征应该融合了fasterrcnn提取的视觉特征和主客体的位置特征3.谓语特征=union box特征-主语特征-宾语特征4.谓语特征经过两层fc得到视觉模块的谓语类别的置信度同时4’.谓语特征经过一层fc，主语和宾语分别做word embedding。5.在三个连续的时间步内分别以主语特征、谓语特征、宾语特征为输入，得到它们的hidden state

原创 2021-11-24 22:06:14 · 388 阅读 · 0 评论
论文阅读：Deeply Supervised Multimodel Attentional Translation Embeddings for VRD(ICIP2019)

论文题目太长打不下了，最后的VRD是Visual Relationship Detection，视觉关系检测，任务是检测和定位图上的多对object，然后分别对每一对object的交互关系（predicate）进行分类。对于SGG来说，就相当于只做predicate classification。还是先放pipeline。一、目标检测最上面的两个箭头：提取单个物体的视觉特征下面的箭头：提取物体对组成的union box的视觉特征二、视觉关系预测1.spatio-linguistic Atte

原创 2021-11-22 17:55:54 · 2327 阅读 · 0 评论
论文阅读：Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)

因为我的方向是场景图，所以仅介绍这篇论文中有关场景图的内容，不涉及VQA。(a)Feature Extraction先对输入图像进行目标检测，每个proposal的视觉特征x包括以下特征：ROIAlign feature(2048维)，空间feature(8维)，论文这里说视觉特征不局限于bbox，实例分割特征和全景特征也可以。(b)构建可学习的对称矩阵S（1）S的计算方法如下：f(xi,xj)称为对象相关性，g(·)称为依赖特定任务的特征（q是任务特征，在VQA中是用GRU编码的问题特征

原创 2021-11-18 21:21:17 · 2628 阅读 · 0 评论
论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation(ICCV2021)

前些日子作业多，就没看论文。组会上老师问我有没有用transformer做场景图的。我说没吧老师。然后师姐给我发了这篇。今天把这篇文章梳理完了，做个记录。这篇文章是做动态场景图的，就是由视频生成场景图。我之前看的都是基于静态图片的，也就是静态场景图。论文作者设计了一个Transformer，捕捉到了单个帧内各谓语表示的空间信息和相邻帧的时序信息。为什么要利用好时序信息呢？对于视频而言，前一帧对后一帧是有启发作用的，作者认为如果前一帧是人-holding-杯子这样的关系，那么很容易就能猜到后一帧是人-dri

原创 2021-10-27 21:18:30 · 2217 阅读 · 0 评论
论文阅读：Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation(CVPR21)

Q

原创 2021-09-23 20:46:20 · 529 阅读 · 2 评论
论文阅读：Graph R-CNN for Scene Graph Generation(ECCV18)

Graph R-CNN模型分为四个部分：（1）目标检测，得到可能包含目标的proposals（2）RePN(Relational Proposal Network)：关系proposal网络。这个网络的作用是对复杂度为O(n)的物体对数量进行稀疏化，即剪枝。（如果目标检测网络检测出有n个proposal，那么所有可能的物体对就是n*(n-1)，即复杂度为O(n)）RePN计算的是任意一对物体的相关度，pi的意思是第i个结点（物体）的物体分类概率，上标o是object的意思。φ和ψ是映射函数（两层.

原创 2021-09-15 11:27:24 · 594 阅读 · 0 评论
论文阅读：Detecting Visual Relationships with Deep Relational Network(CVPR17)

（1）目标检测，使用的是FasterRCNN（2）筛选成对的物体。如果一共有n个bounding box，那么一共有n(n-1)对可供选择的物体对。这么多对物体中，有些是很大概率没有意义的，比如离得太远的物体对，或者两个物体的类别让它们很难产生有意义的关系的这种情况（例如狗和雨伞）（3）Joint Recognition（联合认知）按照论文中给出的结构图，这一部分可以划分为左半部分的特征提取与融合，以及右半部分的DR-Net先说左半部分：FasterRCNN提取了每个bounding box的.

原创 2021-09-14 11:57:39 · 243 阅读 · 0 评论
论文阅读：Scene Graph Generation by Iterative Message Passing(CVPR17)

论文阅读：Scene Graph Generation by Iterative Message Passing(CVPR17)

原创 2021-09-10 17:30:06 · 455 阅读 · 0 评论
论文阅读：Visual Relation Detection with Language Prior(CVPR16)

训练：模块1：visual appearance module，提取视觉特征先训练一个CNN用于对物体进行分类，即Pi(O1)/Pj(O2)，然后再训练一个CNN用于对谓词（共70类）进行分类，输入的东西是O1O2的union bounding box，即CNN(O1,O2)。zk，sk的k=1,2,…K，K就是谓词的种类总数（70），这样一来，整个模块得到的就是在主客体分别为O1，O2的前提下，根据它们的视觉特征，对应70类谓词的概率。visual module这个模块是将CNN featur.

原创 2021-09-08 16:36:07 · 237 阅读 · 0 评论
论文阅读：Visual Translation Embedding Network for Visual Relation Detection(CVPR17)

中间部分的绿框和下面的红框是一对关系的主客体，分别对它们进行物体类别预测、位置编码（这两个目标检测网络都可以实现），最后一个橙色的是bounding box对应到原feature map的roi feature，使用的方法是双线性插值。圆圈表示的意思就是cat，即物体类别、位置特征、roi feature简单地cat在一起，再进行总的一个特征提取，这就是feature extractor layer干的事。将主客体的特征相减，再softmax，得到的就是主客体的关系类别了。...

原创 2021-09-06 17:15:11 · 232 阅读 · 0 评论
论文阅读：Neural Motifs Scene Graph Parsing with Global Context(CVPR18)

MOTIF把场景图的生成分解成了以下三部分：（1）第一部分：Pr(B | I)，给定image输出bounding box，标准的目标检测模型（2）第二部分：Pr(O | B, I)，给定image和bounding box，输出对象的类别标签（3）第三部分：Pr(R | B, O, I)，给定image，bounding box和对象的类别标签，预测关系类别（给定物体类别标签是因为作者发现确定主客体的类别，对最终的关系预测有很大的作用）具体模型：（1）第一部分：标准目标检测，这里论文用的是Fa

原创 2021-09-06 11:19:14 · 541 阅读 · 0 评论
pytorch深度学习实操小tips（不再更新）

最近开始上深度学习课了，算是系统性的巩固学习。在写作业的时候，不报错结果却离谱的情况简直太绝望了。随时记录一下。1.手动实现各种loss不要除batch_size在老师的PPT里，loss都是这种形式，即求和再除n（n是样本总数）实际操作的时候是不除n的，一个batch的loss当然是这个batch中每个样本的loss的加和，至于ppt为什么这么写，我猜这个l(θ)大概是针对每个样本的吧。。手动实现crossEntropy代码如下：def crossEntropy(y_hat, y):

原创 2021-07-22 11:50:40 · 721 阅读 · 0 评论
pytorch报错详解：RuntimeError: Trying to backward through the graph a second time

代码如下，当我尝试对y3进行第二次梯度计算时，报了这个错import torchx = torch.tensor([1], dtype=torch.float32, requires_grad=True)y1 = x ** 2y2 = x ** 3y3 = y1 + y2y3.backward() print(x.grad)x.grad.data.zero_()y3.backward()print(x.grad)百度了一下问题原因和解决方法，解决方法：在第一次backward中加一

原创 2021-07-17 11:53:59 · 27744 阅读 · 13 评论
fatal error: cusparse.h: No such file or directory compilation terminated. error: command ‘/usr/loca

写在前面：我是用pycharm远程连接矩池云的GPU遇到了这个问题。前面安装包都很顺利，就是最后安装maskrcnn-benchmark的时候出问题了，一直在报错fatal error: cusparse.h: No such file or directorycompilation terminated.error: command ‘/usr/local/cuda-9.0/bin/nvcc’ failed with exit status 1经过一番Google，总算解决了这个问题：解决方法

原创 2021-03-21 22:54:13 · 3225 阅读 · 0 评论
tensor.scatter_函数图解

看了好些教程，都是文字版的，感觉还是图更清晰，也好理解。PyTorch 中，一般函数加下划线代表直接在原来的 Tensor 上修改scatter(dim, index, src) 的参数有 3 个dim：沿着哪个维度进行索引index：用来 scatter 的元素索引src：用来 scatter 的源元素，可以是一个标量或一个张量先看两个例子：dim=0：input = torch.rand(2, 5)index=torch.tensor([[0, 1, 2, 0, 0], [2, 0,

原创 2021-02-15 11:54:56 · 1877 阅读 · 5 评论
torch.stack和torch.cat区别及用法

用法：torch.stack((tensor1,tensor2),dim=?)torch.cat((tensor1,tensor2),dim=?)dim默认为0首先要知道dim代表什么意思：一般情况下，dim最多包括batch_size,channel,height,width这四项对应下标0,1,2,3torch.stack和torch.cat都是用于拼接的，核心不同在于使用stack后，原来的张量会增加一维，比如把两个3 * 3（二维）的tensor用torch.stack在dim0拼接，

原创 2021-01-25 22:59:55 · 749 阅读 · 0 评论
pytorch_机器学习高维线性拟合权重衰减demo复现_tensor的view函数

今天的第二篇博客。在复现下一个高维线性拟合demo的时候又双叒叕遇到了一个问题。好家伙，我再次好家伙。先上代码再详说，这次是一个从零开始实现权重衰减的demo：import torchimport numpy as npimport d2lzh_pytorch.util as utilimport torch.utils.data as Data# 1.生成特征# y=0.05+∑0.01*xi+随机噪声n_train=20 # 20个训练数据n_test=100 # 100个测试数

原创 2021-01-16 22:46:29 · 369 阅读 · 0 评论
pytorch_机器学习多项式函数拟合demo复现_损失nan 训练参数为nan_学习率问题

复现多项式函数拟合这个demo时遇见的问题。先贴代码再详说：import numpy as npimport torchimport torch.nn as nnimport torch.utils.data as Data# 1.生成特征n_train,n_test=100,100features=torch.tensor(np.random.normal(0,1,(n_train+n_test,1)),dtype=torch.float32)poly_features=torch.c

原创 2021-01-16 12:05:57 · 344 阅读 · 0 评论
maskrcnn benchmark+win10+pytorch1.4+CUDA10.1安装记录

第一次接触机器学习的代码，老师让跑一个场景图的代码，跑了一个星期没跑出来0^0…场景图的目标检测用的maskrcnn，就想着先单独跑一半吧，结果跑出来了。。。记录一下安装过程。。1.安装Anaconda我安的版本是4.6.14，3.6的python，这里建议如果之前有安装python的先把原来的python卸了，anaconda里自带python环境。之前看别人博客的时候有出现两个python在一起出现问题的情况。2.新建虚拟环境打开anaconda prompt，输入conda create -n

原创 2020-12-04 12:25:45 · 1526 阅读 · 5 评论
李宏毅老师机器学习RMSProp中关于learning rate的解释与思考

就是这张PPT让我非常疑惑，因为上一张讲的是“平坦的地方learning rate越大，陡峭的地方learning rate越小”，怎么换了下一张就变了？绿色明显比红色要平坦，learning rate应该大啊，为什么ppt上写的是小呢？如果也有人这么想的话，那么我们都犯了一个关键性的错误。所谓“平坦的地方learning rate越大”，这个是Adagrad的思想，由Adagrad的公式决定。这里贴个图。但是真正的learning rate的更新可不是这样的，在陡峭的时候，说明离收敛越远，所以..

原创 2020-11-15 12:00:34 · 556 阅读 · 0 评论
CNN的卷积执行过程图解

最近在看李宏毅老师的机器学习，讲到CNN这里的时候对下面这张PPT怎么都想不明白，经过一番网上冲浪，终于搞明白了。原PPT如下。核心疑问：25 * 13 * 13的特征图在经过50个3 * 3的filter之后是怎么变成50 * 11 * 11的特征图的？这一切要从CNN是怎么做卷积的说起。对上图PPT的例子分析如下：（1）输入图像为灰度图（只有一个channel），大小为28 * 28，每经过一个filter的卷积操作后，生成一张特征图。一共有25个filter，生成25张特征图。同时图像大小被卷

原创 2020-11-13 11:00:24 · 1469 阅读 · 1 评论

机器学习

作者: 糖豆豆今天也要努力鸭

论文阅读：Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning(ECCV22)

论文阅读：GPS-Net：Graph Property Sensing Network for Scene Graph Generation(CVPR20)+对focal loss的一些理解

论文阅读：Bridging Knowledge Graph to Generate Scene Graph(ECCV20)

论文阅读：Knowledge-Embedded Routing Network for Scene Graph Generation(CVPR19)

论文阅读：Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

论文阅读：A Hierarchical Recurrent Approach to Predict SGs From A Visual-Attention-Perspective(CI19)

论文阅读：Sketching Image Gist：Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)

论文阅读：PANet：A Context Based Predicate Association Network for Scene Graph Generation(ICME19)

论文阅读：Zoom-Net：Mining Deep Feature Interactions for Visual Relationship Recognition(ECCV18)

论文阅读：ViP-CNN:Visual Phrase Guided Convolutional Nerual Network(CVPR17)

论文阅读：Detecting Visual Relationships Using Box Attention(ICCV19)

论文阅读：LinkNet：Relational Embedding for Scene Graph(NIPS18)

论文阅读：Detecting Unseen Relations Using Analogies(ICCV2019)

论文阅读：Tackling the Challenges in Scene Graph Generation with Local-to-Glocal Interaction

论文阅读：Energy Based Learning for Scene Graph Generation(CVPR2021)

论文阅读：Representation Learning for Scene Graph Completion via Jointly Structural and VE(IJCAI2018)

论文阅读：Contextual Translation Embedding for Visual Relationship Detection and SGG(PAMI2020)

论文阅读：Deeply Supervised Multimodel Attentional Translation Embeddings for VRD(ICIP2019)

论文阅读：Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)

论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation(ICCV2021)

论文阅读：Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation(CVPR21)

论文阅读：Graph R-CNN for Scene Graph Generation(ECCV18)

论文阅读：Detecting Visual Relationships with Deep Relational Network(CVPR17)

论文阅读：Scene Graph Generation by Iterative Message Passing(CVPR17)

论文阅读：Visual Relation Detection with Language Prior(CVPR16)

论文阅读：Visual Translation Embedding Network for Visual Relation Detection(CVPR17)

论文阅读：Neural Motifs Scene Graph Parsing with Global Context(CVPR18)

pytorch深度学习实操小tips（不再更新）

pytorch报错详解：RuntimeError: Trying to backward through the graph a second time

fatal error: cusparse.h: No such file or directory compilation terminated. error: command ‘/usr/loca

tensor.scatter_函数图解

torch.stack和torch.cat区别及用法

pytorch_机器学习高维线性拟合权重衰减demo复现_tensor的view函数

pytorch_机器学习多项式函数拟合demo复现_损失nan 训练参数为nan_学习率问题

maskrcnn benchmark+win10+pytorch1.4+CUDA10.1安装记录

李宏毅老师机器学习RMSProp中关于learning rate的解释与思考

CNN的卷积执行过程图解