导言:
transformer在这两年大火,CV界广泛应用transformer模型,充分吸收其idea到自己的领域。考虑到transformer本是应用于NLP的论文,其中很多内容都形成了共识,因此在论文中并未提及,就好像CV中论文提到图像预处理使用center crop , color jitter,但不会详细介绍这两个,这就是CV领域的共识,其他领域的人看到这两个将会很困惑,作为CV中人读transformer会被很多共识内容所折磨,包括很多介绍transformer的博客知乎,都是站在NLP领域的角度写的,因此共识部分都是一笔带过,本文的出发点是要让CV人读得懂。
(注:本文是本人在内部分享会上的做的ppt,要转换成文章太费时间,这里直接使用ppt图片,原ppt很多内容都是口头讲的,且很多都是原论文引文,这里为了介绍清楚,在其基础上加入了很多口头上讲的东西,并将英文改成了中文,希望读者能谅解)