CVPR2019----论文汲取

本文汇总了多位专家在计算机视觉及机器学习领域的最新研究成果,包括早期行为预测、自监督学习、目标跟踪、姿态估计等多个方向的技术进展与创新方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

AutoML,distillation,and action


胡建芳:Progressive Teacher-student Learning for Early Action Prediction

主题:行为预测

方法:Teacher Student Learning

           用完整视频提供一些信息,帮助部分视频:distillation(信息蒸馏)

知识点:

  • RGB和RGBD:(?)

             RGB:使用CNN(多模态CNN特征信息蒸馏),RNN       

  • Teacher用双向LSTM建模,Student网络用单向的LSTM建模   
  • Loss:局部(控制局部视频的信息蒸馏)/整体(控制两个模型整体间的信息蒸馏)+行为预测Loss

谢凌曦:Snapshort Distillation:Teacher-Student Optimization in One Generation(讲得很好,思路清晰)

主题:Teacher-Student Optimization解决网络优化问题

          (1)想要小模型能够有和大模型一样好的效果,就用Teacher-Student Optimization

            (2)  dark knowledge和 secondary information 带来的好处

          (3)BAN的加速问题:Snapshot Ensemble(SE),每一个mini-batch就是一个循环,每一次学习率都是从高往低降。


薛超:Transferable AutoMLby Model Sharing over Grouped Dataset(上交)

主题:

          (1)AutoML的三个维度:

                         1)search algorithom(搜索的效率):

                                     random search比grad search更有效;realm first learning ,genetic比random更有效

                         2) search space(architecher 如何去做encoder):
                                     平的search space,加跳的search space,emsaption model的space,ResNet这种module model的search space,树形

                         3)做近似:因为需要很大算力,很多时间。

                                     one-shot graph/model,re-use weights,LSTM做预测

            (2)AutoML的五个主流算法:

                          1)贝叶斯优化:调参?高斯分布?基于树形?activition function? 做条件概率倒来导去?

                          2)random search: 闭环会拿到reward,adaptive, hyper rand(此方法可以和上,下做结合)? 

                          3)reinforcement learning(是重要分支):

                                         持续差分?:cure learning?

                                       (著名的)nas?:基于power grading? 对policy进行估计                    

                          4)遗传算法:(甚至可以证明,会稍微好于上述)

                          5)continuous space(基于连续空间建模):上述是离散的,但这个是连续的。这样反向传播的时候可以同时优化weights和architecture,看成是一个最优化的问题。

                 (3)对数据集引入re-ruror?的data-set,相当于对dataset做一个group。因为group的datset可以复用搜索模型,于是加速搜索。对dataset做meta learning,知识蒸馏后就会选择要不要去做ML(是一个online learning),可以复用搜索好的architecture。(??积分被\small \sum做近似,用search space做采样?条件概率,model evidence。简单来说,事先给出bentch-mark model,拥有不同感受,不同architecture的形式 点估计?   任何数据集进来先得到meta feature,如果和以前的feature接近,就启用AutoML的过程,如果不接近就启动AutoML的过程。拿到meta-feature之后如何去做grouping?动态grouping(动态聚类?),用假设检验去做动态聚类,分别控制top1error和top2error。马尔可夫过程假设成高斯过程,加了一个先验?比较主流动态聚类方式,比较各种meta learning的方式)

                  (4)作者研究方向:

                             1)Meta-learning/Transfer Lerning + AutoML

                             2)Search space aware AutoML

                             3)  Multi-objective AutoML on Different platform:多目标(多个指标?)

                             4)  Hardcore AutoML

                             5)  AutoML on sequential data


 

Learning and Recognition


李春光:Self-Supervised Convolutional Subspace Clustering Network(北京邮电大学)

主题:将聚类和特征抽取变成端到端可训练的统一框架

知识点:

            高维数据通常分布在低维子结构上,高维数据如果有多个类别就分布在多个子结构上。每一个cluster都很好地用子空间来近似。

           子空间聚类问题:给出一些点,把点划分到对应的子空间里。如果不知道空间维数就很难办。近年来用普子空间聚类(Spectral Clustering based Methodss)。主要有两个步骤:(1)构造数据相似度矩阵,再用普聚类,由数据点到点到点的相似度。

             预训练,自表示层,拿到普聚类结果用来反馈。


王生进:Perceive where to focus:learning visibility-aware part features for partial(清华大学)

主题:图片会有遮挡(反而会成为噪声),选出除噪声以外的部分和相应的ID做比对。

原理:对图片区域可见不可见的部分进行评分,然后在鉴别比对时提取共享区域(只比相同的部分)。使用region feature提取和visibility score的计算。


魏秀参:Multi-Label Image Recognition with Graph Convolutional Networks(旷视南京研究院负责人)

主题:多标签图片识别

知识点:比如用多个二分类。

               但是,多标签间通常都有关系(要建模lable之间的关系),这一点可以用图解释。这样的优点有,正向会把overlook的东西拉上来,反向会把不可能的东西压下去。

               研究重镇有CMU,CUHK等等。

               首先是正常CNN题取出特征向量。

               然后将自然语言标签进行编码,不管用word embeding, word2vec,还是one-hot。一个节点就是多个标签。

               用条件概率构建图。

               加参数来re-weight以避免over-smooth

 


吴晓明:Label Effcient Semi-Supervised Learning via Graph Filtering(香港理工大学)

主题:用图网络做半监督学习

分类:

            (1)GCN之前的工作:

                                     1)lable propagation:

                                     2)  ManiReg:

                                     3)ICA:

                                     4)   SemiEmb(2012):

                                     5)   Plantoid(2016):                      

              (2)   GCN之后的工作:

                                     1)Cheyshew(2016):

                                     2)MoNet(2017):

                                     3)GCN(2017):

                                     4)GraphSAGE(2017):

                                     5)GAT(2018):


Deep Learning and Relationship Detecion


崔鹏:Learning to learn image classifiers with visual analogy(清华大学)

主题:one-shot learning 度量normal数据和需要数据的关系让模型学习。


詹忆冰:On Exploring Undetermind Relationships for Visual Relationship Detection(杭州电子科技大学)

 


3D and Detection

高盛华:Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding(AutoML)

主题:用2D图片重建3D平面

 


王兴刚:Mask Scoring R-CNN(华中科技大学 地平线  很好)

主题:平常做实例分割的时候直接是用BB做评分的,但是这可能并不能评判mask的好坏。所以,作者在网络中用了一种新的评分标准以提升性能。

方法:

          (1)  基于检测: 先做目标检测,再圈出实例的轮廓

                1)FCIS

                2)Mask R-CNN

          (2) 基于分割:聚类,像素聚成示例


Pose and tracking

彭厚文:Deeper and Wider Siamese Networks for Real-Time Visual Tracking(微软亚洲研究院)

(这里讲一句,微软亚洲研究院的真的是每一位都很厉害,就讲得也是有理有据,整个实验的过程和最后的结果也都很能令人信服。大师就是大师,其实研究生的导师如果能找到一个一心一意做学术的那就是你之福。如果是有一个方向你很喜欢,但是老师纯放养,出论文还要靠自己的,也算是一件幸事,毕竟还可以靠自己努力,还在可控范围之内。如果遇到一个不做学术,还一天到晚让你白干活的,那就想办法出来,人是活的,事在人为,不要因为一些小的不利因素就畏缩不前,任何事都伴随着风险,重要的是永远都有一颗向前向上的心。 Say: Fighting against world!)

主题:用于tracking的网络往往都是用Alex,比较浅,作者研究网络各种参数结构等对结果的影响。(最后去掉ResNet里的Padding,控制感受野和out feature的大小)

  • 基于孪生卷积网络的跟踪框架
  • Siamese Tracker:最主流目标跟踪框架之一

                       过程:给定一对输入,分别进入两个网络,结构和参数都是共享的。经过网络就相当于embedding到另一个特征空间。然后算它们的相似度,然后呢?

                       优点:可以增加样本数量。

                       应用:在人脸检测,Re-ID都有过非常成功的应用。

          (1)SiamFC:先将要寻找的途径过卷积后得到feature map,然后在要寻找的那一帧上得到一个score map,分数最高的就是要寻找的。

          (2)SiamRPN:第一个分支预测样本在被寻找图上出现的概率。另一个用来做回归定位,一旦确定了一个位置,则边界框在预测的基础上会产生一个偏移,有一个offset。

  • 网络各种参数对结果的影响:

            padding:因为孪生网络后期是算相似度,所以内容要尽可能保持一致。如果在边缘,两张padding的图片内容会相差很大,相似度必然下降。

            感受视野和输出特征大小的关系:

                    (1)stride:4 or 8 更小一些,这样就不会大跨步,丢失掉一些信息。

                    (2)receptive field:感受野的大小和整张图片的大小是有对应的,一般在60%~80%

                    (3)两只孪生网络的内容要保持一致性。

 


王栋:Visual Tracking via Adapive Spatially-Regularized Correlation Filters(大连理工)

主题:(CF+深度学习)

            (1)相关滤波在背景比较复杂时性能会有所下降。

            (2)当使用深度特征的时候,相关滤波工作也不会特别好。

tracking发展历程:Meanshift ->Kalman Filter ->Particle Filter->Online Learning->Sparse Representation(稀疏表示)->相关滤波->深度学习。         现在有两个方向:相关滤波+深度学习 OR 端到端的深度神经网络

相关滤波:循环移位的基础上进行的一个岭回归。用循环移位取代滑动窗操作来获得一些正样本。傅里叶变换和反变换 。多通道卷积拟合。。。。。。

 


肖斌:High-Resolution Representation Learning for Human Pose Estimation(微软亚洲研究院)

主题:聚焦姿态估计网络的优化

人体姿态识别方法:

                  (1)Top-down:先框人,再分给姿态估计网络。

                  (2)Bottom-up:先做关键点检测,检测之后再做每一个人的信息打组。

如何设计网络,表达高分辨率特征:先输入高分辨率的图,然后降低分辨率,再然后升高分辨率?CPN:ResNet做backbone,把分辨率降下来,然后再上采样。把深层的表达和浅层的表达融合,得到高分辨率的表达。

 


Video and Computational photography

戴玉超:Bringing a Blurry Frame Alive at High Frame-Rate with an Event Camera.(西北工业大学)

主题:事件相机

连宙辉:Dyn Typo:Example-based Dynamic Text Effects Transfer(北大计算所)

主题:动态文本特效迁移(纹理迁移比较少用深度学习的方法)

徐迈:Viewport Proposal CNN for 360度 Video Quality Assessment

主题:全景视频的质量评估

殷慧:Side Window Filtering(深圳大学)

主题:滤波器(不是深度学习)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值