ICCv13,parts

ICCV13,统计与机器学习部分

大多数是前天晚上读的- -还是有好多下载不到。

这次笔记包括一个来自清华的Transfer Learning的PCA。

还有一些有趣的距离学习和众多的子空间分解的工作。


从人人搬运比较麻烦啊。。


Statistical methods and learning

__73     Group Norm for Learning Structured SVMs with Unstructured Latent Variables     Daozheng Chen, UMD; Dhruv Batra*, Virginia Tech; Bill Freeman, "MIT, USA"

之前11年好像有个不使用非结构隐变量的文章。。

__94     Curvature-aware Regularization on Riemannian Submanifolds     Kwang In Kim*, MPI for Informatics; James Tompkin, MPI Informatik; Christian Theobalt, MPI fuer Informatik

高贵冷艳的黎曼流形,谁有兴趣给我科普么

__258     Learning Graph Matching for Category Modeling from Large Scenes     Quanshi Zhang*, University of Tokyo; Xuan Song, University of Tokyo; Xiaowei Shao, University of Tokyo; Ryosuke Shibasaki, University of Tokyo; Huijing Zhao, Peking University

东大的工作

306     Bayesian Robust Matrix Factorization for Image and Video Processing     Naiyan Wang*, HKUST; Dit-Yan Yeung, HKUST

港大的工作,看看这个是干嘛的

矩阵分解(Y= UV问题)可以用在structure from motion(SfM) and collaborative filtering上。不过不得不说SFM其实运算效率上嘈点颇多。优化算法确实容易做但是实用瓶颈其实都在快速Match上吧。。

这个工作是基于作者自己在ECCV12的时候有人发布的概率框架的MF

PRMF认为残差是l1分布的,而系数是高斯分布的(没有说反么。。)

作者把残差记成tau, 在ECCV的时候,他认为u,v,tau和y构成了一个朴素贝叶斯网络,然后用EM求解了这个问题。

这篇文章的作者在之前那个比较简单的网络上有增加了假设,变成了一个更精细的贝叶斯网络

比如他认为U和V的均值向量以及协方差矩阵的逆存在一个协同分布的先验。。

并且将原来拉普拉斯噪声的假设,增强为噪声可能是一个拉普拉斯分布加上一个高斯分布。。。

好像可以用来做impainting...



360     Transfer Feature Learning with Joint Distribution Adaptation     Mingsheng Long*, Tsinghua University; Jianmin Wang, Tsinghua University; Guiguang Ding, Tsinghua University; Philip Yu, University of Illinois at Chicago

一作目测清华的博士,后面全是老师,孙老师组的工作

试图在Transfer Learning一个分类问题的时候,同时考虑样本的分布和边缘分布。
(其实对这种比较线性的分类没太多好感。。。不过可以降维之后用别的学习算法反正)

假设feature空间是X,X_s表示source domain
X_s是target domain,分类器可以用Q(y|x)来表示,另外本文考虑
一个边缘分布P(x) (x \in X)。并且假设P_s(x_s)和P_t(x_t)不一致
并且分类器Q_s(y_s|x_s)和Q_t(y_t|x_t)也不一致,

考虑学习一个好的特征表述来获得一个比较好的Q_t(y_t|x_t)

主要想法是优化一个feature的变换T

min_T ||E_{P_s(x_s)} [ T(x_s) ]  - E_{P_t(x_t)} [T(x_t)] ||
  + || E_{Q_s(y_s|x_s)} [ y_s | T(x_s) ]
        - E_{Q_t(y_t|x_t)} [ y_t | T(x_t) ] ||
        
第一项是在各自的边缘分布下,变换后的平均feature的误差

第二项是我没有看明白x_s。。。感觉作者好像有笔误,应该要分别在y和x上求期望吧

然后作者先考虑了PCA,PCA可以写成如下优化问题

max tr( A'XHX'A ), s.t. A'A = I

其中H矩阵是为了让X减掉自己的均值H = I -1/n
然后这个问题可以通过求解 XHX' A = A Phi来解决
Phi是对角阵。直接特征值就可以了

不过PCA显然不能,作者假设把X_s里的n_s个数据
带上X_t 里面的n_t个数据,按顺序写在一起

然后希望优化下面这个目标

|| E_{1<i<n_s} [ A' x_i] - E_{n_s+1<j<n_s+n_t} [A' x_j]||

这个东西也可以写成tr(A' X M_0 X' A)的形式

这个东西表示做完变换之后再两个数据集上的分划,
作者希望这个误差尽可能小

对于分类问题,作者在各个类上面定义这个M_0,记成一个M_c

这样的话这个优化问题可以写成

min sum tr( A' X M_c X' A ) + lambda ||A||_F^2
s.t. A'XHX'A = I

后面还加了个l2的规范。这个很容易解啊

看上去简单优雅的方法,不过不了解之前的工作就不乱评论了。

__442     Dynamic Structured Model Selection     David Weiss*, University of Pennsylvania; Benjamin Sapp, Google; Ben Taskar, University of Washington

482     Structured learning of sum-of-submodular higher order energy functions     Alex Fix, Cornel; Thorsten Joachims, Cornell; Sam Park, Cornell; Ramin Zabih*, Cornell University

submodular function是个什么东西。。

这篇文章希望将GraphCut拓展到可以支持高阶factor的情况

submodular function:一个定义在离散二进制变量上的2^V -> R的函数f,满足

f(S交T) + f(S并T) <= f(S) + f(T),

f(S) = sum f_c ( S 交 C )

C被称为一个clique。作者说最小化这样一类函数以前需要O(n^6)的时间。|C|<=2的时候就可以用Graph Cut了。

这篇基本就是介于两者之间的。。。中间穿插大量信息学竞赛内容还有什么增量式广度优先搜索那是什么。。。

看这个做出来GrabCut的效果还没有今年一篇One Cut好。。

__484     What Is the Most Efficient Way to Select Nearest Neighbor Candidates for Fast Approximate Nearest Neighbor Search?     Masakazu Iwamura*, Osaka Prefecture University; Tomokazu Sato, Osaka Prefecture University; Koichi Kise, Osaka Prefecture University

641     Alternating Regression Forests for Object Detection and Pose Estimation     Samuel Schulter*, TUGraz; Christian Leistner, Microsoft; Paul Wohlhart, TU Graz; Peter Roth, ; Horst Bischof, Graz University of Technology

这篇之前提过了,相关的东西有空看一下吧

__642     Linear Sequence Discriminant Analysis: A Model-Based Dimensionality Reduction Method for Vector Sequences     Bing Su*, Tsinghua University; Xiaoqing Ding, Tsinghua University

__930     Robust Matrix Factorization with Unknown Noise     Deyu Meng*, Xi'an Jiaotong University; Fernando de la Torre, Carnegie Mellon University

__957     Recursive Estimation of the Stein Center of SPD Matrices and its Applications     Hesamoddin Salehian*, University of Florida; Guang Cheng, ; Baba Vemuri, "University of Florida, USA"; Jeffrey Ho, University of Florida


__968     Manifold based Image Synthesis from Sparse Samples     Hongteng Xu*, Georgia Tech; Hongyuan Zha, Georgia Tech


988     From Point to Set: Extend the Learning of Distance Metrics     Pengfei Zhu, The Hong Kong Polytechnic University; Lei Zhang*, The Hong Kong Polytechnic University; Wangmeng Zuo, Harbin Institute of Technology; David Zhang, The Hong Kong Polytechnic University

港科的工作,

把point-to-point distance拓展到Set-to-set
以及发展了
PSDML point to set distance metric learning
SSDML set to set distance metric learning

并且用这个工作结合最近邻方法就可以做一些分类的事情

他说的Set其实就是一个Hull的概念而已,包括affine hull 和一个加权系数带上下界的Reduced affine hull, 以及covex hull 和Reduced Convex hull,D上定义的Hull可以记为H(D)

作者给出的p2s dis其实就是

min || x - H(D) ||

Hull的时候H(D) = D alpha

作者说可以用岭回归去解,不过这样不能保证||alpha||<=sigma哟
另外作者说推广来说还可以考虑用一个投影阵对特征空间进行投影的情况

min || P( x - H(D)) || 
这样也等价于一个马氏距离。。

然后作者又推广出了s2d dis

d(D1,D2) = min || H(D_1) - H(D_2)||

然后作者开始推导这两个度量下面的学习问题,

可以变成一个QP,照理说这样的话这个模型的强度可以达到和SVM类似

其实很不错的工作,将度量学习+最近邻的方法与SVM联系上了。

1010     Joint Learning of Discriminative Prototypes
and Large Margin Nearest Neighbor Classifiers(Discriminative Metric and Prototype Learning)

Martin Kstinger*, Graz University of Technology; Peter Roth, ; Horst Bischof, Graz University of Technology

看摘要直观来说,区别于KNN用了所有的数据找近邻,作者找了一些Prototype,这样效率就提高很多了,并且同时作者还加了一些度量学习的手段。

YY一下如果这个做得好的话加上那些支持Hammming距离的binary feature不就屌炸天了轻松做什么支持100000类分类的分类器这种。。。

今天时间不多了先码以后再看吧。。


1082     Distributed Low-rank Subspace Segmentation(Divide-and-Conquer Subspace Segmentation)     Ameet Talwalkar*, UC Berkeley; Lester Mackey, Stanford University; Yadong MU, Columbia University; Shih-Fu Chang, Columbia University; Michael Jordan, Berkeley

目测好像这篇最早是他们NIPS的一个workshop。。。iccv submit的时候名字还是和那个workshop一样的。。后来觉得太假了现在换了名字。。

一个带分治的低秩分解?
目测核心算法挺好写的,要用的时候再看吧


__1405     Dynamic Label Propagation for Semi-supervised Multi-class Multi-label Classification     Bo Wang*, York University; John Tsotsos, "York University, Canada"


__1420     Frustratingly Easy NBNN Domain Adaptation     Tatiana Tommasi*, IDIAP Martigny ; Barbara Caputo,

目测这个工作是在H.Daum一篇叫做Frustratingly Easy Domain Adaptation的基础上做的(摘要声称只有10行代码就可以到state-of-art的神奇工作)。因为名字只多了牛逼的近邻这么一个单词。。


1503     Correlation Adaptive Subspace Segmentation by Trace Lasso     Canyi Lu*, National University of Singapo; Jiashi Feng, NUS; Zhouchen Lin, Peking University ; Shuicheng Yan, "NUS, Singapore"

新加坡国立的工作,目测还包括了一个信科过去的实习生。

也是做子空间分解的。使用了一种新的规范叫做Trace Lasso

Omega = || X Diag(w) ||

数据不相关,在X'X = I的时候会退化为l_1

当各个维度比较相关的时候会变为l_2

是一种很有趣的组稀疏约束,反正这个到最后会导致
X矩阵是分块对角的,所以在子空间分解的时候天然适用

1504     Correntropy Induced L2 Graph for Robust Subspace Clustering     Canyi Lu*, National University of Singapo; Zhouchen Lin, Peking University ; Shuicheng Yan, "NUS, Singapore"

这个组好机智。。。介绍同上一篇文章

优化函数是

min sum( 1-exp(-E_ij^2 / 2simga^2 ) ) + lambda ||Z ||

s.t. E = X - XZ

给子空间分解换了个损失函数(上一篇换的是约束)

后面的不太想看了。。

__1647     Robust Dictionary Learning by Error Source Decomposition     Zhuoyuan Chen*, Northwestern University; Ying Wu, Northwestern University

__1941     Class-Specific Simplex-Latent Dirichlet Allocation for Image Classification     Mandar Dixit*, UC San Diego; Nikhil Rasiwasia, Yahoo Research; Nuno Vasconcelos, "UC San Diego, USA"
### 跨模态子空间聚类中的深度典型相关分析 跨模态子空间聚类是一种旨在将来自不同模态的数据映射到一个共享的低维子空间的技术,在该子空间中可以执行有效的聚类操作。这种方法的核心在于如何有效地融合多源异构数据并保持其内在结构一致性。其中,基于深度典型相关分析(Deep Canonical Correlation Analysis, DCCA)的方法提供了一种强大的工具来解决这一问题。 #### 方法概述 DCCA 是一种无监督的学习框架,能够通过最大化两个视图之间的线性和非线性关联来学习特征表示。具体而言,它扩展了传统的典型相关分析(Canonical Correlation Analysis, CCA),使其适用于复杂的非线性关系建模。在跨模态子空间聚类的应用场景下,DCCA 的主要作用是对齐不同模态间的信息,使得它们能够在统一的空间中被处理[^1]。 为了进一步提升模型的表现力以及适应实际应用场景的需求,一些改进版算法引入了额外约束条件或者采用了更先进的神经网络架构设计思路。例如,“Cross-Modal Subspace Clustering via Deep Canonical Correlation Analysis” 提出了结合自表达特性与正则化项的目标函数形式: \[ L = \sum_{i=1}^{N}\|X_iW - XZ_i\|^2_F + \lambda \|Z_i - Z_j\|^2_F, \] 这里 \(X\) 表示输入样本矩阵;\(W\) 和 \(Z\) 则分别代表权重参数向量及系数矩阵变量集合[\(^{3}\)]。上述公式的第一部分用于鼓励同类别的实例彼此靠近形成簇状分布模式;而第二部分则是用来增强两组投影后的嵌入结果之间的一致程度。 此外,还有其他变体如加入对抗训练机制以克服领域差异带来的负面影响等问题的研究成果也被广泛报道出来。 ```python import tensorflow as tf from keras.layers import Input, Dense from keras.models import Model def build_dcca_model(input_dim_1, input_dim_2, hidden_layer_sizes=[1024, 512]): # Define two separate networks for each view. inputs_view1 = Input(shape=(input_dim_1,)) x1 = inputs_view1 inputs_view2 = Input(shape=(input_dim_2,)) x2 = inputs_view2 for size in hidden_layer_sizes[:-1]: x1 = Dense(size, activation='relu')(x1) x2 = Dense(size, activation='relu')(x2) outputs_view1 = Dense(hidden_layer_sizes[-1], name="output_view1")(x1) outputs_view2 = Dense(hidden_layer_sizes[-1], name="output_view2")(x2) model = Model(inputs=[inputs_view1, inputs_view2], outputs=[outputs_view1, outputs_view2]) return model ``` 此代码片段展示了构建双视角深度典型相关分析模型的基本流程。用户可以根据自己的需求调整层数、节点数以及其他超参设置等内容。 #### 应用优势 相比传统方法,采用 DCCA 实现的跨模态子空间聚类具有以下几个显著优点: - **鲁棒性强**:即使面对含有噪声干扰的情况依旧能维持较好的性能表现; - **泛化能力好**:由于充分利用到了深层次特征交互规律,所以对于未见过的新类别也能较好预测归属情况; - **易于集成优化策略**:无论是增加先验知识指导还是融入更多高级组件都非常方便可行。 然而值得注意的是,尽管如此先进但仍可能存在某些局限之处比如计算成本较高或者是难以调参找到全局最优解等等挑战等待着未来工作去探索完善。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值