知识拓展
文章平均质量分 85
深度科研
对未来最大的慷慨,是把一切留给现在!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
语义分割中图片和mask的可视化
其实取标题一直以来都是一件麻烦的事,但是如果你要看下去,我想你得有一点语义分割的见解。用平常的语言描述该问题就是:语义分割出我们感兴趣的目标物,然后输出该目标物的轮廓点。做语义分割其实有很多种方法,你可以用不同的模型去train你的dataset,但是刚接触语义分割的朋友们可能会说,我该怎么分割出我想要的目标物,而不对其它部分的像素做修改?其实这件事并不复杂,一个很直觉的想法是:修改像素对应的RGB值。那怎么修改对应像素的RGB值呢?举例来说,假设你在mmsegmentation框架下用的是SegFor原创 2022-05-17 18:04:06 · 8939 阅读 · 2 评论 -
RNN生成模型、Attention & Memory work
今天比较为难的一点是怎么给这篇博客取一个标题。你有想到说这篇Blog是为接下来写STAR网络做一些前期铺垫,但是我该怎么取一个篇名能够体现接下来所要写的东西呢?之前有写过from RNN to LSTM系列,那至少说对RNN有一个大概的了解。那我们今天要做的事情是什么呢?我们要用RNN产生一个有structure的object。假设说这个structure objection可以拆成很多个component,那我们所要做的事就是用RNN把这些component呢,给一个一个的产生出来。事实上这件事情你已原创 2022-05-15 16:43:57 · 750 阅读 · 0 评论 -
ICCV2021 Best Paper : Swin Transformer (三)
code:GitHub - microsoft/Swin-TransformerSwin Transformer里面的具体架构是怎么实现的呢?由于代码呢很长容易理不清调用间的关系,最好的办法呢画一张图来表示:首先呢我们会定义需要使用的版本的swin transformer函数,比如swin_tiny_patch4_window7_224,然后呢调用SwinTransformer类,具体参数呢代码里已经很详细了,不需要多说def swin_tiny_patch4_window7_224(原创 2022-02-18 16:57:25 · 2012 阅读 · 0 评论 -
ICCV2021 Best Paper : Swin Transformer (二)
三、Supplement1.Relative Position Bias在Swin Transformer (一)中呢已经结束了主干部分,接下来呢,就是剩余的一些边边角角,不过重要的呢,是对源码的解析。在之前有提到说attention的计算多加了一个,即 :我们把这个呢叫做偏置,也称为相对位置偏置Relative Position Bias。那这个Relative Position Bias到底在做一件怎样的事情呢?我们以下图为例,window=2,先在窗口内任意选定一个参考点,比如第一..原创 2022-02-17 20:48:56 · 1059 阅读 · 0 评论 -
ICCV2021 Best Paper : Swin Transformer (一)
今天呢,并不是什么重要的日子,但绝对是值得记录下Swin transformer的美好时刻。在写Swin transformer之前呢,会不禁有这样一个问题:Swin transformer要解决一个怎样的事情呢?这件事情就是:我们知道,在NLP任务中啊输入的token大小基本相同,而在CV领域例如目标检测中由于目标尺寸并不相同,那用单层级的模型就很难有好的效果;其次将transformer迁移到CV领域,由于图像分辨率高,像素点多,transformer基于全局的自注意力的计算将导致十分巨大的计算量,尤其原创 2022-02-17 09:15:00 · 1300 阅读 · 0 评论 -
Q&A:Transformer, Bert, ELMO, GPT, VIT
南方阴雨绵绵的气候出门都成了一种奢望,即便冬季漫长而又枯燥,但那真正意义上的春天也将悄然来临。这样的开头并不多见,那今天为什么要舞文弄墨呢?因为感冒它终于好了!所以对近期的科研工作做个小结,但是呢很多地方不敢细想,水太深,把握不住,就写写常见的question and answer一、Q&A:Transformer1. Transformer为什么要使用多头注意力机制呢?你可以想啊,这件事情就是,我们在做self-attention的时候,是用q去找相关的k。但是“相关”这件事情,.原创 2022-02-14 16:51:07 · 938 阅读 · 0 评论 -
Bert and its family——GPT
在更新完ELMO、Bert之后,还有一个家族成员——GPT需要记录。其实也一直想写啦,只不过最近都在玩。那什么是GPT呢?GPT就是Generative Pre-Training 的简称,实际上就是transformer的decoder。那GPT在做一个怎样的工作呢?就是输入一个句子中的上一个词,我们希望GPT模型可以得到句子中的下一个词,就仅此而已。当然,由于GPT-2的模型非常巨大,它在很多任务上都达到了惊人的结果,甚至可以做到zero-shot learning(简单来说就是模型的迁移能力非常好),如原创 2022-02-09 12:32:40 · 1731 阅读 · 0 评论 -
Bert and its family——Bert
在写完ELMO之后呢,就是我们的主角——Bert。Bert(Bidirectional Encoder Representation from Transformers)架构呢实际上是transformer中的encoder,同样里面有很多Self-Attention和residual connection,还有normalization等等。Bert的基本模型结构由多层transformer构成,包含2个预训练任务:掩码语言模型(Mask Language Model,MLM)和下一个句子预测(Next.原创 2022-02-06 23:02:15 · 1095 阅读 · 0 评论 -
Bert and its family——ELMO
在写bert and its family之前呢,还是磨蹭了很久,主要是最近一直在喝酒,然后牌桌上的失意,愈发的难过。在写之前呢,我们先了解一个问题:机器怎么看懂人类文字?换句话说,我们怎么把文字输入到电脑里面去,让电脑能够看懂人类文字。那在bert、ELMO之前,机器是这样去读人类文字的:最早的做法是说每一个人类的词汇就当作是一个不同的符号,每一个符号都用一个独特的编码来表示这个符号。那最常见的做法叫做one-hot embedding。假设说现在世界上只有5个词汇,那我们把这五个词汇都用一个向量来描原创 2022-02-03 19:06:59 · 1027 阅读 · 0 评论 -
Why transformer?(三)
在这一部分我们就要弄明白“encoder和decoder之间是怎么传递讯息的”了,如果你仔细观察下图红方块那一块的话(也就是我们在Why transformer(二)中遮起来的那一块),那我们就把这一块叫做Cross attention,它是连接encoder和decoder之间的桥梁。三、Cross attention上图红色框中你会发现,有两个输入来自于encoder(图中蓝色圆圈),另外一个输入才来自decoder。那这个模组实际上是怎么运作的呢?假设我们现在输入一排向量给encode..原创 2022-02-02 18:13:09 · 741 阅读 · 0 评论 -
Why transformer?(二)
前面有说呢,seq2seq model里面会分成两块,一块是encoder,,另外一块是decoder。你input一个sequence,由encoder处理这个sequence,再把处理好的sequence丢给decoder,由decoder决定它要输出什么样的sequence。在前面的 Why transformer(一)里呢,我们有详细的剖析transformer encoder的架构。现在呢,我们来看一看transformer decoder是怎样运作的。二、decoder那decode原创 2022-01-31 18:02:21 · 2104 阅读 · 0 评论 -
Why transformer?(一)
今天呢,是忙里偷闲来写一写transform,因为为了卤羊排,已经把我的耐心磨损到了临界值;不过为了舌尖上的美味,这好像是笔不亏的买卖。我们已经提到过好多次transformer,那transformer是什么呢?transformer就是一个sequence to sequence的model,sequence to sequence我们一般会写成seq2seq。那seq2seq又是什么呢?我们之前在写input a sequence的case时有提到过,input是一个sequence,那outpu原创 2022-01-30 09:15:00 · 761 阅读 · 0 评论 -
self-attention is all you need(三)
self-attention呢有一个进阶的版本,叫做Multi-head self-attention。实际Multi-head self-attention今天的使用是相当的广泛。我们知道,并不是所有的任务都适合用比较少的head,有一些任务,比如说翻译、语音辨识等用比较多的head会得到比较好的结果。那至于需要用多少的head,这个超参数是需要你自己调的。那为什么我们会需要比较多的head呢?你可以想啊,相关这件事情就是,我们在做self-attention的时候,是用q去找相关的k。但是相关这件事原创 2022-01-29 14:54:11 · 350 阅读 · 0 评论 -
self-attention is all you need(二)
过年的气息越来越浓厚了,那我们接着从self-attention is all you need (一)写下去在self-attention is all you need (一)呢,我们已经操作过怎样跟据Input sequence得到output sequence。self-attention要做的事情,就是给定一排的input vector得到另外一排output vactor。之前我们已经操作过如何根据一排input sequence(a1~a4)得到b1,同理可以得到b2~b4。这里需要强调的原创 2022-01-29 11:45:09 · 708 阅读 · 2 评论 -
self-attention is all you need(一)
还有几天就是22年春节了,趁年底写一写对self-attention的理解,虽然仍在隔离中,但科研永远在路上。一、what is attention ?类比而言,当download信息映入眼帘时,我们的大脑会把注意力放在主要的信息上,这就是大脑的注意力机制。同样地,当我们读一句话时,大脑也会首先记住重要的词汇。换句话说,Attention是从大量信息中有筛选出少量重要信息,并聚焦到这些重要信息上,忽略大多不重要的信息。就像下面这张图片,第一眼看到的一定是这个可爱的姑娘吧,然后才注意到身边的猫吧~原创 2022-01-27 17:43:42 · 1000 阅读 · 0 评论
分享