
《跨界模型 Transformer》专栏
文章平均质量分 91
在NLP领域transformer已经是成功地取代了RNN(LSTM/GRU),在CV领域也出现了应用,比如目标检测和图像加注,还有RL领域。本专栏将详解Transformer (Attention Is All You Need),以及重点关注的其在CV、NLP中的应用优势。
Charmve
现就职于国内某top自动驾驶独角兽公司,量产自动驾驶系统架构师,专注于自动驾驶感知模块研发,有多年量产经验。同时,也是迈微AI研习社公众号主理人、优快云博客专家、阿里云社区专家博主,多次对外主题演讲和报告。对国内自动驾驶产品较为了解,熟悉自动驾驶系统全栈研发体系。
展开
-
从感知机到Transformer:一文概述深度学习发展史!
这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。1958 年:感知机的兴起1958 年,弗兰克 · 罗森布拉特发明了感知机,这是一种非常简单的机器模型,后来成为当今智能机器的核心和起源。感知机是一个非常简单的二元分类器,可以确定给......原创 2022-06-09 19:00:51 · 539 阅读 · 0 评论 -
Transformer已成新霸主?FAIR等重新设计纯卷积ConvNet,性能反超
来自 FAIR 、UC 伯克利的研究者重新检查了设计空间并测试了纯 ConvNet 所能达到的极限,表明卷积神经网络的性能不亚于视觉Transformer。原创 2022-01-12 19:00:00 · 391 阅读 · 0 评论 -
加性注意力机制、训练推理效率优于其他Transformer变体,这个Fastformer的确够快...
从训练与推理效率来看,清华和微软亚研提出的 Fastformer 无愧于「fast」。原创 2021-08-31 19:00:00 · 545 阅读 · 0 评论 -
3行代码就能可视化Transformer的奥义 | 开源
Transformer背后的计算模型是什么?就是最资深的炼丹er,也很难直观地解释这一结构中的信息如何流动,数据又是如何计算的。但现在,只要写上几行代码,就能将Transformer的流程可视化。转载 2021-06-24 19:00:00 · 239 阅读 · 0 评论 -
华人团队用Transformer做风格迁移,速度快、可试玩,网友却不买账
利用神经网络进行风格迁移是一项非常常见的任务,方法也很多,比如基于优化和基于 RL 的方法。最近,来自百度 VIS 团队的研究者提出了一种基于 Transformer 的风格迁移框架,速度快于基线方法,实现效果也不错。然而,研究遭到了网友的质疑,这是为什么呢?转载 2021-09-28 19:00:00 · 572 阅读 · 0 评论 -
综合LSTM、transformer优势,DeepMind强化学习智能体提高数据效率
来自 DeepMind 的研究者提出了用于强化学习的 CoBERL 智能体,它结合了新的对比损失以及混合 LSTM-transformer 架构,可以提高处理数据效率。实验表明,CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。转载 2021-09-14 18:58:09 · 1686 阅读 · 0 评论 -
Transformer 原理讲解以及在 CV 领域的应用
目前已经有基于Transformer在三大图像问题上的应用:分类(ViT),检测(DETR)和分割(SETR),并且都取得了不错的效果。那么未来,Transformer有可能替换CNN吗,Transformer会不会如同在NLP领域的应用一样革新CV领域?后面的研究思路可能会有哪些呢?敬请期待下一篇文章给出解答。原创 2021-05-17 20:05:00 · 2928 阅读 · 3 评论 -
深度学习 | 详解Transformer (Attention Is All You Need)
本文中的大量插图也会从该博客中截取。首先感谢Jay Alammer详细的讲解,其次推荐大家去阅读原汁原味的文章。原创 2020-07-19 19:30:00 · 1117 阅读 · 0 评论 -
Transformer又来搞事情!百万像素高清图轻松合成,效果迷人
你上一次听到用Transformer生成图像,应该还是iGPT刚问世的时候吧?当时OpenAI用GPT-2来分类和补全图像,取得了令人惊艳的成果。遗憾在于,iGPT生成的图像最大只有64x64像素。现在,我要告诉你,最上面这张图像也是Transformer生成的,分辨率有1280x460之高。合成这张图像的模型名叫VQGAN,而且,它能做的事情远不止于此。先看看VQGAN和iGPT的对比,前者生成的图像明显高清得多。VQGA...转载 2021-01-12 14:55:29 · 985 阅读 · 0 评论 -
Google综述:细数Transformer模型的17大高效变种
在NLP领域transformer已经是成功地取代了RNN(LSTM/GRU),在CV领域也出现了应用,比如目标检测和图像加注,还有RL领域。这是一篇谷歌2020年9月份在arXiv发表的综述论文 “Efficient Transformers: A Survey“,值得读读。转载 2021-04-03 19:14:23 · 662 阅读 · 0 评论 -
CV和NLP通吃!谷歌提出OmniNet:Transformers的全方位表示
在机器翻译、图像识别等任务上表现SOTA!性能优于Performer、ViT和Transformer-XL等网络。原创 2021-03-25 18:40:00 · 312 阅读 · 1 评论 -
一文解读深度学习中的Normalization模型
BN是深度学习进展中里程碑式的工作之一,无论是希望深入了解深度学习,还是在实践中解决实际问题,BN及一系列改进Normalization工作都是绕不开的重要环节。原创 2020-07-23 19:30:00 · 743 阅读 · 0 评论 -
CVPR2021 | 基于transformer的视频实例分割网络VisTR
视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例进行分类、分割和跟踪的任务。最近研究人员提出了一个新的基于Transformers的视频实例分割框架VisTR,它将VIS任务看作一个直接的端到端并行序列解码/预测问题。给定一个由多个图像帧组成的视频片段作为输入,VisTR直接输出视频中每个实例的掩码序列。其核心是一种新的、有效的instance sequence匹配与分割策略,它在序列级对实例进行整体监控和分割。VisTR从相似性学习的角度对实例进行分割和跟踪,大大简化了整个流程,与现有方法有很转载 2021-03-30 18:40:00 · 2409 阅读 · 0 评论 -
CVPR‘21 | 真·内卷!involution:超越convolution和self-attention的神经网络新算子
本文来自李铎的投稿,介绍他们在深度卷积神经网络中的新工作,通过反转前述的卷积设计原理提出了一种用于深度神经网络的新颖原子操作。同时,也分享一些作者对网络结构设计(CNN和Transformer)的理解。转载 2021-03-24 23:10:00 · 1109 阅读 · 0 评论 -
CVPR 2021 Oral | Transformer再发力!华南理工和微信提出UP-DETR:无监督预训练检测器...
华南理工和微信AI提出了random query patch detection的预训练任务,对DETR中的transformer进行无监督预训练,从而提高其目标检测的性能。>>回复“加群”加入迈微技术交流群,走在计算机视觉的最前沿在之前最新CVPR2021论文收录合集中也强烈推荐过这篇论文,今天带大家分析一下。原创 2021-03-22 18:40:00 · 410 阅读 · 2 评论 -
预训练图像处理Transformer:华为诺亚、北大等提出IPT模型,刷榜多项底层视觉任务...
作为自然语言处理领域的主流模型,Transformer 近期频频出现在计算机视觉领域的研究中。例如 OpenAI 的 iGPT、Facebook 提出的 DETR 等,这些跨界模型多应用于图像识别、目标检测等高层视觉任务。而华为、北大、悉大以及鹏城实验室近期提出了一种新型预训练 Transformer 模型——IPT(Image Processing Transformer),用于完成超分辨率、去噪、去雨等底层视觉任务。该研究认为输入和输出维度相同的底层视觉任务更适合 Transformer 处理。转载 2020-12-04 19:30:00 · 777 阅读 · 0 评论