来自γ星的赛亚人-优快云博客

原创 ubuntu20.04 下深度学习环境配置史上最详细教程

ubuntu20.04 + cuda11.0.2 + cudnn11.0 + anaconda3 + pytorch + pycharm 环境配置

2022-02-14 21:30:50 19694 41

原创 linux系统 anaconda 换源操作命令

linux系统anaconda 换源问题

2022-02-12 23:33:47 3051

原创【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

最近的扩散模型研究展示了在生成图像中进行条件控制的强大能力，例如文本引导图像合成。这种成功激励了许多尝试使用大规模预训练扩散模型解决一个具有挑战性的问题 - 实际图像编辑。在这个领域进行的工作学习了一个唯一的文本标记，对应于包含相同对象的几个图像。然而，在许多情况下，只有一张图像可用，例如"戴珍珠耳环的女孩"的画作。使用现有的关于对单个图像进行微调的工作会导致严重的过拟合问题。预训练扩散模型中的信息泄漏使得编辑无法保持与给定图像相同的内容，同时又能根据语言引导创建新的特征。本文旨在解决单图像编辑的问题。

2023-07-14 22:13:29 1500 1

原创【论文笔记】CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

大规模预训练的 Transformer 模型已经在文本（如GPT-3）和文本到图像（如DALL-E和CogView）生成方面取得了里程碑式的成果。然而，将其应用于视频生成仍然面临许多挑战：潜在的巨大计算成本使得从头开始训练不可承受；文本-视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。在本文中，作者提出了一个9B参数的 Transformer 模型CogVideo，通过继承预训练的文本到图像模型 CogView2 进行训练。还提出了多帧率分层训练策略，以更好地对齐文本和视频片段。

2023-06-12 16:04:36 2139 1

原创【论文笔记】SwinIR: Image Restoration Using Swin Transformer

图像恢复是一个长期存在的低层次视觉问题，旨在从低质量图像（例如缩小、噪声和压缩图像）中恢复高质量图像。虽然现有的图像恢复方法基于卷积神经网络，但在高级视觉任务上表现出色的Transformer方法却很少被尝试。在本文中，作者提出了一个基于Swin Transformer的图像恢复强基线模型SwinIR。SwinIR由浅层特征提取、深层特征提取和高质量图像重建三个部分组成。

2023-04-24 22:17:50 1200 1

原创【论文笔记】VideoGPT: Video Generation using VQ-VAE and Transformers

作者提出了VideoGPT：一种概念上简单的架构，用于将基于似然的生成建模扩展到自然视频。VideoGPT使用VQ-VAE，通过使用3D卷积和轴向自注意力学习原始视频的下采样离散潜在表示。然后使用类似于GPT的简单架构来自回归地建模离散潜在表示，使用时空位置编码。尽管在公式和训练方面非常简单，但作者设计的架构能够生成与视频GAN模型相竞争的样本，用于BAIR机器人数据集的视频生成，并从UCF-101和Tumbler GIF数据集(TGIF)生成高保真度的自然视频。

2023-04-22 23:25:22 3561

原创【论文笔记】Deep High-Resolution Representation Learning for Human Pose Estimation

在本文中，作者对人类姿势估计问题感兴趣，重点是学习可靠的高分辨率表示。大多数现有方法从高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反，作者建议的网络在整个过程中保持高分辨率表示。我们从高分辨率子网作为第一阶段开始，逐步逐个添加高到低分辨率子网，形成更多的阶段，并并行连接多分辨率子网。进行重复的多尺度融合，以使每个高到低分辨率表示一次又一次地从其他并行表示接收信息，从而产生丰富的高分辨率表示。结果，预测的关键点热图可能更准确，并且在空间上更精确。

2022-11-04 11:38:57 581 1

原创【论文笔记】An Image Patch is a Wave: Phase-Aware Vision MLP

在计算机视觉领域，最近的工作表明，主要由全连接层堆叠的纯 MLP 架构可以实现与 CNN 和 Transformer 竞争的性能。视觉 MLP 的输入图像通常被拆分为多个令牌（补丁），而现有的 MLP 模型直接将它们以固定的权重聚合，忽略了来自不同图像的令牌的不同语义信息。为了动态聚合令牌，我们建议将每个令牌表示为具有振幅和相位两部分的波函数。幅度是原始特征，相位项是根据输入图像的语义内容而变化的复数值。引入相位项可以动态调节 MLP 中令牌和固定权重之间的关系。

2022-09-25 18:32:48 1543 1

原创【论文笔记】Enabling technologies and tools for digital twin

数字孪生正在革新工业。由传感器更新和历史数据激发，复杂的模型可以反映产品、过程或服务的几乎每个方面。未来，物理世界中的一切都将通过数字孪生技术在数字空间中复制。作为一项前沿技术，数字孪生受到了很多关注。然而，数字孪生远未实现其潜力，这是一个复杂的系统和漫长的过程。研究人员必须对物体或系统的所有独立部分进行建模。需要收集和合并各种类型的数据。许多工程研究人员和参与者不清楚应该使用哪些技术和工具。5维数字孪生模型为理解和实施数字孪生提供了参考指导。

2022-09-05 20:54:59 1436

原创【论文笔记】Moire Photo Restoration Using Multiresolution ´Convolutional Neural Networks

数码相机和手机使我们能够方便地记录珍贵的时刻。虽然数字图像质量不断提高，但拍摄高质量的数字屏幕照片仍然具有挑战性，因为照片经常被莫尔条纹污染，这是相机传感器像素网格和设备屏幕之间干扰的结果。摩尔纹图案会严重损害照片的视觉质量。然而，很少有研究旨在解决这个问题。在本文中，我们介绍了一种新颖的多分辨率全卷积网络，用于从照片中自动去除莫尔条纹。由于莫尔条纹跨越很宽的频率范围，我们提出的网络在计算如何消除每个频带内的莫尔条纹伪影之前对输入图像执行非线性多分辨率分析。

2022-09-03 21:18:56 345

原创【论文笔记】IEEE | 一种新卷积 DSConv: Efficient Convolution Operator

我们引入了一种称为 DSConv（分布移位卷积）的卷积层变体，它可以很容易地替换到标准神经网络架构中，并实现更低的内存使用和更高的计算速度。DSConv 将传统的卷积核分解为两个组件：可变量化核 (VQK) 和分布偏移。通过在 VQK 中仅存储整数值来实现更低的内存使用和更高的速度，同时通过应用基于内核和通道的分布偏移来保留与原始卷积相同的输出。我们在 ResNet50 和 ResNet34 以及 AlexNet 和 MobileNet 上测试 ImageNet 中的 DSConv。...

2022-08-30 15:32:49 8078 2

原创【论文笔记】MiniSeg: An Extremely Minimum Network for Efficient COVID-19 Segmentation

提出了 MiniSeg，一种用于高效 COVID-19 分割的轻量级深度学习模型。

2022-07-26 22:53:49 1690

原创【论文笔记】TransUNet: Transformers Make StrongEncoders for Medical Image Segmentation

Transformer 为医学图像分割提供强大的编码器

2022-07-03 19:23:02 1549

原创基于计算机视觉任务的人工智能 covid-19 肺部感染区域成像模型的回顾与分类

本文系统概述了使用计算机断层扫描 (CT) 医学图像诊断 2019 年冠状病毒病 (COVID-19) 的人工智能 (AI) 和计算机视觉策略

2022-05-28 18:13:36 472

原创 DMDF-Net:双多尺度扩展融合网络，用于covid-19肺部病变区域的精确分割

我们提出了一种双多尺度扩张融合网络 (DMDF-Net)，用于对给定 CT 图像中的小病灶进行稳健分割。所提出的网络主要利用编码器和解码器模块内部多尺度深度特征融合的优势，以互惠互利的方式实现卓越的分割性能。在所提出的方法中引入了额外的预处理和后处理步骤，以解决普遍性问题并进一步提高诊断性能。主要是在后处理步骤中引入后感兴趣区域（ROI）融合的概念，减少了假阳性的数量，并提供了一种准确量化肺部感染区域的方法。

2022-05-27 11:40:39 681

原创 TV-Unet：使用连接施加的 U-net 分割 covid-19 肺部感染区域 CT 图像

提出了一个分割框架来检测 CT 图像中被 COVID-19 感染的胸部区域。采用类似于 U-net 模型的架构来检测体素级别的毛玻璃区域。由于受感染区域倾向于形成连接的组件（而不是随机分布的体素），因此开发了基于 2D 各向异性总变化的合适正则化项并将其添加到损失函数中。因此，所提出的模型被称为“ TV-Unet ”...

2022-05-25 17:09:20 1279

原创 SSA-Net：基于半监督小样本学习的 covid-19 肺部感染区域分割的空间自我注意网络

提出了一种新型新型冠状病毒肺炎肺炎病变分割网络，称为空间自我注意网络 (SSA-Net)，用于从胸部CT图像中自动识别感染区域。在我们的SSA-Net中，利用自我注意机制通过从更深层提取有用的上下文信息而无需额外的训练时间来扩展接受领域并增强表示学习，并引入空间卷积以增强网络并加速训练收敛。

2022-05-17 20:25:44 1761

原创基于 DenseNet 和 VGG16 特征融合的 covid-19 冠状病毒 X 射线图像分类与检测方法

提出了一种基于密集卷积网络（DenseNet）和视觉几何组网络（VGG16）特征融合的胸部X光图像分类方法。本文在模型中加入了注意力机制（全局注意力机器块和类别注意力块）来提取深度特征。残差网络（ResNet）用于分割有效的图像信息，以快速实现准确分类。我们的模型检测二元分类的平均准确率可以达到 98.0%。三类分类的平均准确率可以达到97.3%。

2022-05-17 19:17:50 2184 3

原创【论文笔记】Dense GAN and multi-layer attention based lesion segmentation method for COVID-19 CT images

本文提出了一种改进的 Dense-GAN 扩展数据集，并结合 U-Net 的2019冠状病毒疾病肺 CT 图像分割，提出了一种多层注意机制方法。实验结果表明，与其他图像分割方法相比，本文提出的分割方法提高了 2019 冠状病毒疾病肺部医学 CT 图像的分割精度。

2022-05-16 17:51:23 587

原创【论文笔记】MultiR-Net：一种新的 covid-19 肺部病变区域分割和分类的联合学习网络

最近，COVID-19 中的深度学习主要分为疾病分类和病灶分割，但很少有工作关注这两个任务之间的特征相关性。为了解决这些问题，在本研究中，我们提出了 MultiR-Net，这是一种用于组合 COVID-19 分类和病灶分割的 3D 深度学习模型，以实现实时和可解释的 COVID-19 胸部 CT 诊断。准确地说，所提出的网络由两个子网组成：一个用于病变分割的多尺度特征融合类 U-Net 子网和一个用于疾病诊断的分类子网。

2022-05-16 15:43:16 993

原创【论文笔记】D2A U-Net: Automatic segmentation of COVID-19 CT slices based on dual attention and hybrid di

提出了一种基于双注意策略和混合扩张卷积的新型扩张双注意 U-Net，即D2A U-Net，用于 CT 切片2019 冠状病毒疾病病变的分割。在我们的 D2A U-Net中，由两个注意模块组成的双注意策略被用于细化特征图，并缩小不同层次特征图之间的语义差距。此外，在模型解码器中引入了混合扩张卷积，以获得更大的接收场，从而优化了解码过程。

2022-05-14 21:57:12 728 2

原创【论文笔记】Multi-task deep learning based CT imaging analysis for COVID-19 pneumonia: Classification and

本文提出了一种自动分类分割工具，用于帮助使用胸部 CT 成像筛查 COVID-19 肺炎。分割的病灶有助于评估肺炎的严重程度和对患者的随访。在这项工作中，我们提出了一种新的多任务深度学习模型来联合识别 COVID-19 患者并从胸部 CT 图像中分割 COVID-19 病变。

2022-05-14 14:32:43 458

原创【论文笔记】Contour-enhanced attention CNN for CT-based COVID-19 segmentation

提出了一个 Contour-aware Attention Decoder CNN，以一种非常有效的方式精确分割 COVID-19 感染的组织。它引入了一种新的注意方案来从 CT 轮廓中提取边界、形状线索，并利用这些特征来细化感染区域

2022-05-13 19:33:23 654

原创【论文笔记】SCOAT-Net: A novel network for segmenting COVID-19 lung opacification from CT images

SCOAT网络：一种新的分割2019冠状病毒疾病肺的网络CT图像中的混浊

2022-05-12 20:48:30 726 1

原创【covid-19】Inf-Net: Automatic COVID-19 Lung InfectionSegmentation from CT Images

一种新的 covid-19 肺部感染分割深度区域（Inf-Net）

2022-05-09 13:20:54 1259

原创【论文笔记】covid-19肺部感染区域分割基准

声明不定期更新自己精度论文，通俗易懂，初级小白也可以理解涉及范围：深度学习方向，包括 CV、NLP、Data Fusion、Digital Twin

2022-05-06 19:52:21 1533

原创【论文笔记】Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers

从序列到序列的学习角度重新定义了图像语义分割问题，为主导的编码器-解码器 FCN 模型设计提供了一种替代方案，即 SEgmentation TRansformer

2022-04-29 20:36:08 1737

原创【论文笔记】Focal Self-attention for Local-Global Interactions inVision Transformers

Vision Transformer 中局部-全局互动的焦点自我关注

2022-04-28 16:51:08 2677

原创【论文笔记】A Survey on Masked Facial Detection Methods and Datasets for Fighting Against COVID-19

对抗 COVID-19 的蒙面面部检测方法和数据集的调查

2022-04-24 21:46:37 2045 2

原创【论文笔记】Vision Transformers for Dense Prediction

提出了基于 ViT 为主干架构的 Vision Transformer

2022-04-22 13:36:25 5636

原创【论文标题】Bottleneck Transformers for Visual Recognition

提出了 BoTNet，这是一种概念上简单但功能强大的主干架构，它结合了用于多个计算机视觉任务的自注意力，包括图像分类、对象检测和实例分割。

2022-04-20 14:51:00 2329

原创【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers

CMT 架构一种新颖的 CMT（CNNs meet transformers）架构用于视觉识别论文标题：CMT: Convolutional Neural Networks MeetVision TransformersCMT：卷积神经网络与视觉变压器论文链接：https://arxiv.org/abs/2107.06263论文代码：发表时间：2021年7月Abstract视觉转换器已成功应用于图像识别任.

2022-04-18 18:05:15 5939