TED-net: Convolution-free T2T-ViT-based Encoder-decoder Dilation network 阅读笔记（小关键点记录）

原创

已于 2022-04-15 15:24:10 修改 · 2.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #图像处理 #计算机视觉

于 2022-04-15 15:04:04 首次发布

笔者的研究方向即为低剂量CT去噪，这篇论文可以说是transformer在该领域的一次重要应用，欢迎大家在评论区一起讨论学习。

本文提出了一种基于无卷积T2T-ViT的编码器-解码器膨胀网络（TED-net），以丰富LDCT去噪算法家族。该模型没有卷积块，由一个带唯一transformer的对称编解码块组成。

PS：前置论文可以参考笔者的前两篇阅读笔记，包括：ViT、T2T-ViT。

介绍

作者在这部分并没有展示他的创新点，只是针对前人的优势和不足之处做了分析说明，在此不再赘述。

方法

本文提出的模型如图所示，在编码部分，该模型包括Tokenization block（词语切分块）、Transformer Block（TB）、Cyclic Shift Block（循环位移块，CSB）、带膨胀的T2T块（T2TD）和不带膨胀的T2T块（T2T）。解码器部分包括T2T、T2TD、逆循环移位块（ICSB）和解码块。

Tokenize block使用unfold（展开）从图像补丁中提取token，而DeToken block应用Fold将token转换回图像。TB包括一个典型的transformer块。CSB使用循环移位操作，ICSB使用逆循环移位。T2T合并了tokens到token块以增强tokenization，而T2TD在T2T tokenization过程中包括了扩展。最后的图像是通过从带噪的输入图像中减去模型残差输出得到的。

2.1噪声模型

去噪分析论文都有的对去噪过程建立数学模型，没什么好说的，值得一提的是，本文提出的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wangtao990503

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【图像去噪】论文精读：CTformer: Convolution-free Token2Token Dilated Vision Transformer for Low-dose CT Denoisi

03-14

293

论文题目：CTformer: Convolution-free Token2Token Dilated Vision Transformer for Low-dose CT Denoising —— CTformer:用于低剂量CT去噪的无卷积Token2Token膨胀视觉转换器CT图像去噪！低剂量计算机断层扫描(LDCT)去噪是CT研究中的一个重要问题。与正常剂量CT (NDCT)相比，LDCT图像受到严重的噪声和伪影的影响。

TEDnet

TheWaySoFar

03-18

1015

<Crowd Counting and Density Estimation by Trellis Encoder-Decoder Networks> 背景介绍类似沙漏金字塔backboe大量的下采样上采样的融合不利于生成精准度密度图, 这源于1)下采样本身导致精准度下降, 2)上采样并不能恢复之前丢失的信息, 即使使用了跳跃连接. 3)还有mse损失针对像素间的损失,忽略了空间信...

3 条评论您还未登录，请先登录后发表或查看评论

人群计数：TEDnet--Crowd Counting and Density Estimation by Trellis Encoder-Decoder Networks

目睹闰土刺猹的瓜的博客

07-30

1214

In this paper, we propose a trellis encoder-decoder network for crowd counting, which focuses on generating high-quality density estimation maps. ** Contribution： ** First, we develop a new trellis ar...

Dense Dilated Network for Few Shot Action Recognition

weixin_42486554的博客

04-21

869

Motivation 数据稀缺问题是新出现的行动类别的一个常见问题，这阻碍了神经网络学习辨别特征。同一类别中的动作具有多种背景，这需要足够数量的带注释的视频数据来训练深度神经网络。因此作者想能不能用很少的例子找到学习新动作类别的方法？方法作者采用了图像识别任务中一个新颖的DenseNet，采用密集连接来充分利用整个视频的时空信息。将一个视频分为n个片段，使用TSN分别提取空间信息和时间信息，然后使用具有密集连接的块提取特征，最后得到每个片段的预测分数，融合分数得到视频的预测结果。 Dense Dila

【cvpr2022】ReSTR: Convolution-free Referring Image Segmentation Using Transformers

lynn_Dai的博客

06-22

822

1、以前的方法在处理每种模态中语义实体之间的长期交互方面存在困难。RIS需要捕捉这种交互，因为语言表达通常涉及到复杂的实体之间的关系，以精确地指出目标区域。在这方面，cnn和rnn由于其基本构建模块的局部性而受到限制。 2、现有模型难以对两种模态之间复杂的相互作用进行建模。它们通过拼接-卷积运算聚合视觉和语言特征，它无法足够灵活有效地处理大量的各种RIS场景。1、ReSTR通过transformer提取视觉和语言特征。视觉编码器和语言编码器分别以一组不重叠的图像块和一组文字嵌入块作为输入，提取它们的特征，同

语义分割--Dilated Residual Networks

AI小作坊的博客

06-13

6714

Dilated Residual Networks CVPR2017 http://vladlen.info/publications/dilated-residual-networks/ 本文针对当前卷积分类网络对输入图像进行一系列降采样处理，得到的特征图尺寸很小（一般7×7），导致spatial information 损失比较严重。这里我们对性能比较好的 residual networks

ted-talks-annotation:TED演讲中张力发展的诠释

05-04

在data / video_list.csv上下载TED演讲视频： python downloader.py 用法运行基于Web的注释工具： export PYTHONPATH=.; python annotation/app.py export PYTHONPATH=.; python annotation/app.py 注释！ :...

ted-minima:https

03-29

【标题解析】：“ted-minima:https”这个标题可能指的是一个与TED演讲风格相关的项目，名为“ted-minima”，并且它可能与HTTPS安全协议有关。这通常意味着该项目可能是一个网页设计模板或者框架，用于创建类似于TED...

UM10277_Tedkit_stepbystep_ted-kit2_

10-01

This document describes step-by-step how to write software for the TED-Kit 2 and its components using the API Library

ted-study hahhaahahhahah

06-07

以上这些知识点都是围绕"ted-study"这一主题展开的，旨在提供IT专业人士应对焦虑的多种途径。通过学习和实践这些策略，我们可以更有效地管理压力，保持心理健康，从而在充满挑战的IT世界中取得成功。

《Free-Form Image Inpainting with Gated Convolution》阅读笔记

69小石头的博客

11-11

1000

《Free-Form Image Inpainting with Gated Convolution》阅读笔记一、论文二、代码三、参考链接一、论文摘要: 我们提出了一种生成式图像修复系统，以使用自由形式的蒙版和引导修复图像。该系统基于从数百万张图像中学习的门控卷积，无需额外的标记工作。提出的门控卷积解决了将所有输入像素都视为有效像素的普通卷积的问题，通过为所有通道在所有层上每个空间位置的每个通道提供一种可学习的动态特征选择机制来概括部分卷积。此外，由于自由形式的遮罩可能会出现在具有任何形状的图像中

tednet:张量分解网络的工具包

04-01

泰德网 tednet是用于张量分解网络的工具包。张量分解网络是通过张量分解将各层分解的神经网络，包括CANDECOMP / PARAFAC，Tucker2，Tensor列，Tensor环等。为了方便进行研究， tednet提供了出色的工具来处理张量网络。现在，可以通过pip轻松安装tednet ： pip install tednet 可以在找到更多信息。

《Dilated Residual Networks》论文详解

u010067397的专栏

11-05

614

体会感觉这篇文章的关键不是idea，而是写法；通过实验和公式说明了这样组合的优势；动机之前的卷积神经网络都是通过不断降低图像精度，直到图像被一个仅保留微弱空间信息的特征map表示（一般最后卷积层输出仅为7×7），最后通过计算类别概率来分类图像。这样情况下，尽管前面卷积网络做的很好，但是整个网络却不能获取一个十分精确的结果，例如一个很小的目标对解析图片信息十分重要，但是却被前面卷积网...

读论文：《CTformer: Convolution-free Token2Token Dilated Vision Transformer for Low-dose CT Denoising》

热门推荐

结构之法算法之道

04-30

4万+

2018年我写过一篇博客，叫：《》，该文相当于梳理了2019年之前CV领域的典型视觉模型，比如随着2019 CenterNet的发布，特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后，自此CV迎来了生成式下的多模态时代但看这些模型接二连三的横空出世，都不用说最后爆火的GPT4，便可知不少CV同学被卷的不行。

无卷积参考图像分割——ReSTR: Convolution-free Referring Image Segmentation Using Transformers

ADICDFHL的博客

08-24

603

参考图像分割是一项高级的语义分割任务，其中目标不是预定义的类别，而是通过自然语言进行描述。现有的大多数方法依赖于卷积神经网络，但是卷积神经网络在捕捉语言表达中实体之间的长距离依赖关系方面存在困难，并且对于建模两种不同模态之间的相互作用不够灵活。为了解决这些问题，我们提出了一种使用Transformer进行参考图像分割的第一个无卷积模型，名为ReSTR。由于ReSTR通过Transformer编码器提取了两种模态的特征，因此可以捕捉到每个模态内部实体之间的长距离依赖关系。此外，ReSTR通过自注意力编码器融合

昇思MindSpore 应用学习-Vision Transformer图像分类

青云的博客

07-21

1308

本案例完成了一个ViT模型在ImageNet数据上进行训练，验证和推理的过程，其中，对关键的ViT模型结构和原理作了讲解。通过学习本案例，理解源码可以帮助用户掌握Multi-Head Attention，TransformerEncoder，pos_embedding等关键概念，如果要详细理解ViT的模型原理，建议基于源码更深层次的详细阅读。

【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

寸先生的AI道路

12-18

2349

同时，还探讨了这些方法在不同医学图像模态（如CT、MRI、X射线等）中的实际应用，以及它们面临的挑战和未来的发展方向。这一部分从四个方面探讨了ViTs在医学图像分割中的应用，包括ViT在编码器（Encoder）、解码器（Decoder）、编码器-解码器中的应用，以及ViT在编码器和解码器之间的应用。本文中规中矩，对涉及到的方法只是简单陈列，并没有细致的优缺点探讨，可以作为寻找对应方向论文的一个参考，笔记中对涉及到的方法根据之前读文经历进行简单的优缺点归纳。ViT在解码器(decoder)中的应用。

论文阅读|TCFormer

weixin_45782047的博客

07-29

2228

人体姿态估计|TCFormer