Tensor Methods in Computer Vision and Deep Learning学习笔记

本文探讨了张量在计算机视觉领域的核心概念,包括张量结构、表征学习与深度学习模型中的应用。重点介绍了张量和矩阵代数,以及张量分解在降维、表征学习和深度网络参数化中的作用。此外,文章详细列举了实际挑战和未来建议。

学习笔记_边凯昂

第一章 Tensor Methods in Computer Vision and Deep Learning


前言

  这是一篇关于张量在计算机视觉和深度学习中的应用的论文。本文回顾了represent learning(表征学习)和深度学习特别是在视觉数据分析和应用中的张量和张量方法,还关注了张量方法逐渐增加给深度学习架构和计算机视觉应用中的影响。
  对于这篇论文,前面比较基础的数学概念我相对熟悉,但后面一些数学模型以及张量方法的应用读不太懂。


一、介绍

  张量是矩阵的推广,矩阵是二阶张量(行和列),张量也可以看作是矩阵表示函数的推广。张量的阶数是处理其元素所需的索引的数量。张量被用来表示和分析隐藏在多维数据中的信息,如图像和视频,或捕获和利用向量值变量之间的高阶相似性或依赖性。张量可以展示多维可视化数据,在计算机视觉和深度学习中有着重要的应用。

1.视觉数据中的张量结构

视觉数据是一种多维数据,而张量结构是其中两种固有形式:
A.视觉测量值的张量结构
B.图像形成过程中的潜在张量结构
  多维视觉数据样本需要被扁平成非常高维的向量,在那里,自然拓扑结构和不同模式(例如,空间和时间)之间的依赖性丢失;除了结构损失外,当在训练基于矩阵的机器学习模型中使用高维向量时,在给定的精度水平内估计任意函数(或机器学习模型的参数)所需的数据样本数量随数据维数呈指数增长。这种现象被称为维数的诅咒。

2.计算机视觉表征学习中的张量方法

目的:为了减轻维度的诅咒而不丢弃它们的结构,恢复潜在因素在视觉数据和灵活足以适应大量的结构约束和正则化;表现为降维、聚类和数据压缩。
  深度学习模型通过局部统计来利用数据的统计特性,如平稳性(例如,移位不变性)和组合性(例如,图像的层次结构),这些都存在于视觉数据中。这些特性被卷积体系结构所利用,它们由交替的多维卷积层、点向非线性函数(如ReLU)、下采样(池化)层组成,同时也包含张量结构的全连接层。在深度神经网络中使用多维卷积可以提取跨图像域共享的局部特征,这大大减少了可学习参数的数量,从而减轻了维数诅咒的影响——而不牺牲近似目标函数的能力。

3.基于计算机视觉的深度学习体系结构中的张量方法

  尽管深度神经网络的组成结构减轻了维数的诅咒,但深度学习模型通常被过度参数化,涉及大量(通常是数千万甚至数十亿)的未知参数。张量分解可以显著减少深度模型中未知参数的数量,进一步减轻维数的诅咒。(应用于神经网络层的权值来压缩它们;保留和利用数据中的拓扑结构,同时产生简约的模型)
  随机神经网络的张量分解能有效对抗对抗性攻击和各种类型的随机噪声方面。

二、张量和矩阵代数的基本原理

1.相关记号

描述了一些记号(标量、矩阵、实数、整数集等)
Fibers :通过固定除一个指数以外的所有指数而得到的(几维就表明有几个索引有几个Fibers模式)
如图一个342规模的3维张量通过控制其中两个指数,可以被分为3种Fibers。下面分别是被分为42,32,34的三种Fibers。
下面Tensorly 和Matlab听学长说,目前没有直接处理张量的软件,所以下面是张量被处理成不同fibers然后被两种软件解析不同Fibers的方式。

Roller是一种针对深度学习的快速高效的张量编译器。深度学习模型的训练和推断通常需要大量的张量计算操作,而传统的解释式执行方式效率较低。Roller的设计目标就是通过编译技术来提高深度学习中张量计算的效率。 Roller通过将高级深度学习框架中的计算图转换为低级的、高度优化的代码来实现高效的张量编译。这种编译方式可以将计算图中的张量操作转换为高度优化的机器代码,而不是依赖于解释器的执行。这样一来,张量操作的执行速度会大幅提升。 Roller采用了许多优化技术来提高编译速度和执行效率。首先,它通过对计算图进行静态分析和依赖关系推断,可以降低编译的时间复杂度。其次,Roller为计算图中的每个操作选择了最适合的底层实现方式,例如使用SIMD指令、并行计算等。此外,Roller还使用了内存优化策略,如缓存复用和内存分配策略,从而减少了内存访问的开销。 Roller支持多种深度学习框架,包括Tensorflow和PyTorch等。它可以与这些框架无缝集成,以便在训练和推断过程中提供高效的张量计算。同时,Roller还提供了丰富的工具和接口,可以帮助用户进行编译优化和性能调优。 总之,Roller是一种快速高效的张量编译器,可以显著提高深度学习模型中的张量计算效率。它的设计目标是通过编译技术来优化深度学习中的张量操作,从而加快模型训练和推断的速度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值