学习笔记_边凯昂
第一章 Tensor Methods in Computer Vision and Deep Learning
文章目录
前言
这是一篇关于张量在计算机视觉和深度学习中的应用的论文。本文回顾了represent learning(表征学习)和深度学习特别是在视觉数据分析和应用中的张量和张量方法,还关注了张量方法逐渐增加给深度学习架构和计算机视觉应用中的影响。
对于这篇论文,前面比较基础的数学概念我相对熟悉,但后面一些数学模型以及张量方法的应用读不太懂。
一、介绍
张量是矩阵的推广,矩阵是二阶张量(行和列),张量也可以看作是矩阵表示函数的推广。张量的阶数是处理其元素所需的索引的数量。张量被用来表示和分析隐藏在多维数据中的信息,如图像和视频,或捕获和利用向量值变量之间的高阶相似性或依赖性。张量可以展示多维可视化数据,在计算机视觉和深度学习中有着重要的应用。
1.视觉数据中的张量结构
视觉数据是一种多维数据,而张量结构是其中两种固有形式:
A.视觉测量值的张量结构
B.图像形成过程中的潜在张量结构
多维视觉数据样本需要被扁平成非常高维的向量,在那里,自然拓扑结构和不同模式(例如,空间和时间)之间的依赖性丢失;除了结构损失外,当在训练基于矩阵的机器学习模型中使用高维向量时,在给定的精度水平内估计任意函数(或机器学习模型的参数)所需的数据样本数量随数据维数呈指数增长。这种现象被称为维数的诅咒。
2.计算机视觉表征学习中的张量方法
目的:为了减轻维度的诅咒而不丢弃它们的结构,恢复潜在因素在视觉数据和灵活足以适应大量的结构约束和正则化;表现为降维、聚类和数据压缩。
深度学习模型通过局部统计来利用数据的统计特性,如平稳性(例如,移位不变性)和组合性(例如,图像的层次结构),这些都存在于视觉数据中。这些特性被卷积体系结构所利用,它们由交替的多维卷积层、点向非线性函数(如ReLU)、下采样(池化)层组成,同时也包含张量结构的全连接层。在深度神经网络中使用多维卷积可以提取跨图像域共享的局部特征,这大大减少了可学习参数的数量,从而减轻了维数诅咒的影响——而不牺牲近似目标函数的能力。
3.基于计算机视觉的深度学习体系结构中的张量方法
尽管深度神经网络的组成结构减轻了维数的诅咒,但深度学习模型通常被过度参数化,涉及大量(通常是数千万甚至数十亿)的未知参数。张量分解可以显著减少深度模型中未知参数的数量,进一步减轻维数的诅咒。(应用于神经网络层的权值来压缩它们;保留和利用数据中的拓扑结构,同时产生简约的模型)
随机神经网络的张量分解能有效对抗对抗性攻击和各种类型的随机噪声方面。
二、张量和矩阵代数的基本原理
1.相关记号
描述了一些记号(标量、矩阵、实数、整数集等)
Fibers :通过固定除一个指数以外的所有指数而得到的(几维就表明有几个索引有几个Fibers模式)
如图一个342规模的3维张量通过控制其中两个指数,可以被分为3种Fibers。下面分别是被分为42,32,34的三种Fibers。
下面Tensorly 和Matlab听学长说,目前没有直接处理张量的软件,所以下面是张量被处理成不同fibers然后被两种软件解析不同Fibers的方式。

本文探讨了张量在计算机视觉领域的核心概念,包括张量结构、表征学习与深度学习模型中的应用。重点介绍了张量和矩阵代数,以及张量分解在降维、表征学习和深度网络参数化中的作用。此外,文章详细列举了实际挑战和未来建议。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



