Triton安-优快云博客

原创 timm库

视觉 Transformer 优秀开源工作：timm 库 vision transformer 代码解读 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/3508372791 什么是 timm 库？PyTorchImageModels，简称 timm，是一个巨大的PyTorch代码集合，包括了一系列：image models layers utilities optimizers schedulers data-loaders / augm..

2022-03-12 20:07:31 2315

原创论文笔记——Long-Short Transformer: Efficient Transformers for Language and Vision

一、short term attention这里的操作是对于单一的一个attention head来说的1.n是patch的数量， d是patch的dimension，对于所有的,只与其相邻的进行attention，必要时边界采用zero padding。eg1：第一个q和第二个q 只会和他们window内的4个进行attention。2.维度：Q :n*d ; W: d*dk ; K、V： 2w*d二、long term attention这里的操作是对于单一的一个a...

2022-02-19 15:24:11 348 2

原创论文笔记——Cat cross attention in vision transformer

同期论文如Swin Transformer和Pyramid Vision Transformer都很不错！不过这里只简单介绍CAT。提出了一种新的注意力机制，称为Cross Attention，它在图像块内而不是整个图像中交替注意以捕获局部信息，并结合Transformer构建为CAT，表现SOTA。性能优于PVT、CrossViT等网络。对图像进行Tokenization之后，用图像块替换Transformer的word tokens所需的计算量很大（例如ViT），这会成为模型训练和推理的瓶颈。而C

2022-01-08 10:48:01 523 1

原创论文笔记——early convolutions help transformers see better

一、motivation二、solution

2021-12-21 11:06:24 396 1

原创论文笔记——rethinking the self attention in vision transformer

本文的核心思想：1.在前层的attention map非常稀疏，可以用一个mask来减少计算量。（具体看文章如何实现mask）2.attention可以分为三种Relative position based attentionAbsolute position based attentionContent-based attention...

2021-12-12 14:24:53 155 1

原创论文笔记——Metaformer is all you need

论文的核心思想是即使是用pooling 的 token mixer效果也很好。

2021-12-12 14:18:18 154 1

原创论文笔记——deit

一、概念解释：1.归纳偏置（inductive bias）研究人员在构建新的机器学习模型和训练范式时，通常会使用一组被称为归纳偏置（inductive biases）的特定假设，来帮助模型从更少的数据中学到更通用的解决方案。其实就可以理解为先验知识。2.label smoothing1.减少标注错误带来的影响2.减少过拟合二、论文核心总结实际上这篇文章就是提出了用distillation token来从teacher那里学习一个inductive bias，减少

2021-12-08 19:03:00 194 1

原创论文笔记——Can Vision Transformers Perform Convolution?

一、问题引出与初步结论二、具体细节

2021-11-15 15:17:02 190 1

原创论文笔记——IOS: INTER-OPERATOR SCHEDULER FOR CNN ACCELERATION

1.Abstract先行对CNN的加速是优化内部并行单一operator，然而，鉴于高性能硬件的快速发展，单个算子无法再充分利用可用的并行性，所以提出IOS，自动规划多种operator的并行处理基于新的动态编程算法。2.Introduction2.1 motivation1.之前的方法是在单一operator间进行并行优化，但是现在硬件的算力在猛烈提升，但对于CNN operator间的并行却没有考虑。2.CNN的设计方式从单一branch变成了多个branch的设计，导致每

2021-11-06 11:18:26 219 1

原创论文笔记——Mobile-Former: Bridging MobileNet and Transformer

一、摘要本文提供了Mobile-Former，是一种由双向桥将MobileNet和Transformer并行连接的结构。桥允许双向融合局部与全局特征。Mobile-Former有较少的随机初始化的tokens（少于6个），导致了低计算量。接着描述了实验结果：Combining with the proposed light-weight cross attention to model the bridge,Mobile-Former is not only computational

2021-11-02 18:37:44 609 1

原创 Pytorch-Mobile-Android（3）部署自己模型

一、例子：1.用torch.jit.script转torchscript，不要用torch.jit.trace理由见：【Pytorch部署】TorchScript - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/135911580import vision_transformerfrom torch.utils.mobile_optimizer import optimize_for_mobileimport torchmodel_vit

2021-10-30 14:19:41 5351 1

原创 python图像处理笔记第二章：采样、傅里叶变换与卷积

一、采样：采样是对图像像素点的选择或拒绝，是一种空间操作1.上采样为了增加图像的大小，需要进行上采样——即增加一些在原来小图像中没有的像素1.1最近邻上采样from PIL import Imageimport skimage.io as ioimport matplotlib.pyplot as pltim = Image.open('D:/test.jpg')plt.imshow(im)im1 = im.resize((im.width*5, im.height

2021-10-28 11:23:29 879

原创论文笔记——TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

一、背景1.Transformer 架构早已在自然语言处理任务中得到广泛应用2.在计算机视觉领域，注意力要么与卷积网络结合使用，要么用来代替卷积网络的某些组件，同时保持其整体架构不变。3.基于自注意力的架构，尤其 Transformer，已经成为 NLP 领域的首选模型。该主流方法基于大型文本语料库进行预训练，然后针对较小的任务特定数据集进行微调。由于 Transformer 的计算效率和可扩展性，基于它甚至可以训练出参数超过 100B 的模型。随着模型和数据集的增长，性能仍然没有饱和的迹象。

2021-10-26 12:41:19 382 1

原创 python图像处理笔记第一章：图像处理入门

一、图像在计算机中的存储形式图像可以简单理解为将坐标点映射为与点的颜色强度相关的整数。因此，需要在空间和振幅两个方面进行数字化，即分别对应图像采样和灰度量化。例如：灰度图像就是二维坐标与黑白颜色强度的映射。RGB图像则是三个二维坐标分别与红，绿，蓝颜色强度映射的叠加。二、使用PIL读取、保存和显示图像from PIL import Imageimage = Image.open(r'D:\test.jpg')print(image.width, image.height,

2021-10-24 12:56:45 432

原创 Transformer-FLOPs推导过程

一、Transformer结构图二、分部分计算FLOPs1.Encoder(1)input_embedingInput假设是一个维度为vocab的向量，通过Input_embeding部分变成 vocab*d_model的矩阵：即（vocab*1）@（1*d_model)=vocab*d_model次乘法。再乘上d_model ** 0.5 所以 Input_embeding的FLOPs = vocab*d_model*2(3)Positional...

2021-10-12 21:32:45 5478 1

原创 Pytorch-Mobile: FLOPs的计算

一、定义区分FLOPS和FLOPs：• FLOPS 注意全部大写是floating point of per second的缩写，意指每秒浮点运算次数。可以理解为计算速度，用来衡量硬件的性能。• FLOPs 是floating point of operations的缩写，是浮点运算次数，理解为计算量，可以用来衡量算法/模型复杂度。（ps:FLOPs 是模型推理时间的一个参考量，但并不能百分百表示该模型推理时间的长短，因为乘法和加法计算不一样，乘法的时间一般是加法时间的四倍，但现在有很多优化卷

2021-10-09 13:20:27 411

原创论文笔记——Attention is all you need（2）代码

一

2021-09-19 11:44:57 3321

原创 python cookbook——函数

一、装饰器1.基本构造器装饰器：1.不改变原函数2.把原函数作为一个参数，传给装饰器，返回一个新函数目的：1.在不改变原函数的情况下，对原函数添加新的功能2.代码示例import timedef time_cost(func): def time_cost_cal(): start = time.time() func() end = time.time() gap = end - start

2021-09-18 16:51:16 131

原创 python cookbook——数据结构和算法

一、将序列分解为单独的变量1.问题将一个包含N个元素的序列，分解为N个单独的变量2.解决方案任何序列或者可迭代对象都可以通过赋值操作分解

2021-09-15 18:45:13 293

转载论文笔记——Attention Is All You Need（1）

一、Bleu评价（Bilingual Evaluation Understudy）机器翻译的结果越接近人工参考译文就认定它的质量越高。1、N-gramN-gram 准确率（N-gram Precision）n-gram是指n 个连续单词组成的单元，称为n 元语法单元。n 越大表示评价时考虑的匹配片段越大BLEU的计算首先考虑待评价译文中n-gram在参考答案中的匹配率，称为n-gram 准确率（n-gram Precision）。其计算方法如下：　例如：原文：今天天气不..

2021-09-08 10:56:30 692 1

原创 Pytorch-Mobile-Android（2）

Android-Pytorch：QUICKSTART WITH A HELLOWORLD EXAMPLE（官网例1）1.模型构成：是一个resnet18模型（model.ptl），用来识别静态图片，图片和模型都存放在了assets目录下。2.Gradle Dependencies：上一篇文章说过，build.gradle是一个配置构建文件，其中dependencies可以理解为插件加载区：implementation是远程依赖声明，意味着如本地没有所提示的插件，那就...

2021-07-13 14:18:32 1134

原创 Pytorch-Mobile-Android（1）

Android Studio简介（后简称AS）1.Android系统架构（1）Linux内核层：給Android硬件提供底层驱动（2）系统运行库层（Libraries）提供库函数，提供特性支持，如数据库、3D绘图、浏览器内核等。（3）应用架构层提供应用程序可能用到的API（4）应用层手机上的所有应用程序2.AS项目结构简介以pytorch官网的第一个项目HelloWolrdAPP的项目结构为例：（1）.gradle和.idea是AS自动生成的文件，无需关心

2021-07-13 13:43:54 584

原创 Pytorch笔记汇总-基本神经网络搭建

1

2021-07-04 22:10:01 76

原创 Pytorch笔记汇总-Tensor的基本操作

1.GPU使用时要初始化：import torch as t device = t.device("cuda") #可为'cpu'a = a.to(device)b = b.to(device)print(a.device) #查看变量在cpu还是在gpu上2.torch.matmul()矩阵乘法3.自动求导import torch as t from torch import autogradx = t.tensor(1.) #tensor只能是浮点数a = t.t

2021-07-04 16:37:32 323

unamable的博客