- 博客(190)
- 收藏
- 关注
原创 【论文阅读笔记】内镜人工智能诊断辅助系统对胃局灶性病变检出的应用
作者:张梦娇/徐铭/张晨霞/白宇彤/吴练练/商任铎/王君潇/董泽华/李昊/匡浩/朱益洁/胡珊/何鑫琦/陶逍/杜泓柳/于红刚效果视频:扫码观看;
2025-01-17 14:38:57
754
1
原创 【论文阅读笔记】基于YOLO和ResNet深度卷积神经网络的结直肠息肉检测
算法系统由YOLO和ResNet152构建,系统在本文称作DCNN。数据集有4个来源,其中数据集111作为训练集,数据集2342/3/42/3/4均为测试集。数据1341/3/41/3/4的来源都是从武汉大学人民医院消化内镜中心数据库2018年01月 - 2019年03月的肠镜图像及视频。数据集111(2018年01月-2018年11月),共470047004700张。其中370037003700张带息肉,训练YOLO;100010001000张不带息肉,结合前面的1000。
2025-01-15 11:02:29
1125
1
原创 【论文阅读笔记】人工智能胃镜在盲区检测和自主采图中的应用
数据来源;是武汉大学人民医院消化内镜中心数据库选取的385223852238522张胃镜图像,和919191个视频资料来训练胃镜精灵。对比目标;,是两位水平相当的胃镜医师,一位使用胃镜精灵,另一位不使用胃镜精灵。比较2位内镜医师使用胃镜精灵前后胃镜检查部位覆盖率。对比结果胃镜精灵的部位识别总准确度为85.12585.125\%85.125%。盲区检测实验中内镜医生使用胃镜精灵后胃镜检查部位覆盖率分别(87.325±7.06587.325±7.065。
2025-01-14 16:44:11
1017
1
原创 【阅读笔记】消化内镜入门及规范操作
窄带成像技术(norraw band imaging, NBI),应用光学影像增强技术,通过光栅过滤,将普通白光中红、绿、蓝3种光中波长最长的红光滤掉,只释放出中心波长为415nm(蓝光)和540nm(绿光)两种波长的光。波长变窄后,能够使照射光穿透的深度限定在组织表层,突出对黏膜层和黏膜下层细微结构的观察。另外,由于血红蛋白对波峰在415nm的短波长光吸收明显,因此利用短波长光能够造成血管组织与周边非血管组织对比强烈,从而令内镜检查者能够清晰地观察到黏膜表层的微细血管结构和形态。
2025-01-09 20:26:32
656
原创 【论文阅读笔记】End-to-End Object Detection with Transformers
现有大多数检测算法,都依赖于一些初始猜测。不管是基于proposal的二阶目标检测算法,还是anchor-based、anchor-free的一阶目标检测算法,都是没有直接去预测集合预测的,而是设计了一个替代的任务(回归和类别概率)来解决目标检测问题。现代目标检测器的检测性能很受后处理步骤的影响,比如(1)密集预测边界框的消除;(2)anchor集合的额设计;(3)将目标分配给anchor的启发性方法;
2024-10-11 18:54:15
1445
3
原创 【论文阅读笔记】YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
作者认为,当前的方法都忽略了前向过程中的信息损失。这会导致生成偏差的梯度流,而这些偏差梯度流会用来更新网络。如下图222所示 ,不同网络结构使用随机初始化参数,特征图的可视化展示。有几种方法可以缓解这种现象:使用可逆架构。该方法主要使用重复的输入数据,并以显式的方式保留输入数据的信息;使用掩码建模。该方法主要使用重构损失,采用隐式的方式最大化提取的特征并保留输入信息;引入深度监督。该方法使用没有丢失太多重要信息的浅层特征来预先建立从特征到目标的映射,以确保重要信息能够传递到更深的层。
2024-10-08 17:21:07
909
1
原创 【论文阅读笔记】TOOD: Task-aligned One-stage Object Detection
由于分类和定位学习机制的差异,两个任务学习到的特征空间分布可能不同。当两个任务分支单独预测时,会导致一定程度的不对齐。如下图111所示,上面行是ATSS算法预测的结果,下面行是本文TOOD算法预测的结果。图中黄色框是餐桌的label,分类任务的最佳位置是红色色块,其边框预测为红框;回归任务的最佳位置是绿色色块。从图111可以容易看出,在原有方法训练管道得到的结果,可能会出现分类任务和定位任务的不对齐问题。
2024-09-23 20:17:10
1085
1
原创 【论文阅读笔记】YOLOv10: Real-Time End-to-End Object Detection
YOLO系列的前作基本都含有网络的前馈部分以及NMS后处理部分。使用NMS的原因是因为o2m的标签分配策略(单个GT框对应多个正样本训练,也是平衡正负样本的一种方式)会导致预测时产生密集正样本,需要在最后选出最佳预测。此外,NMS对参数敏感,也让YOLO无法实现最佳端到端部署。摆脱NMS的限制采用端到端的DETR架构。采用混合模型将DETR推向实时应用领域,如RT-DETR。此种方法复杂度高;探索端到端的CNN-based检测器,使用one-to-one的标签分配方式。
2024-09-19 16:49:34
1512
1
原创 【论文阅读笔记】YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
之前的论文对一个网络进行设计的时候,都会使用同一个架构,进行不同尺度的缩放。作者认为这种大小模型的优雅一致性不是必要的,作者在YOLOv6的大小模型就使用了不同的backbone设计。在较小模型使用RepVGG(单路径结构),在较大模型使用(多路径结构)。在neck的选择上,YOLOv6延续了YOLOv4和YOLOv7的PAN结构。在检测头上,YOLOv6是采用的设计,解耦分类和框检测的结构。无锚(anchor-free)检测器因其更好的泛化能力和解码预测结果的简单性而脱颖而出。
2024-08-01 13:46:48
1006
原创 【论文阅读笔记】An Image is Worth 16x16 Words: Transformers For Image RECOGNITION At Scale
在以前的视觉任务中,自注意力都是与CNN结合,或者用于在CNN中增加或者替换block的组成(网络结构的主体保持不变,仍是由stage1, stage2, …, stageN组成)。作者认为这是不必要的。在分类任务上,可以直接将朴素的Transformer用于图像块上,可以得到与SOTA的CNN相媲美的效果。但VIT取得相媲美结果的前提是需要使用更大数据集进行预训练(与NLP一样),然后在中小型数据集(ImageNet、CIFAR100, VTAB)上迁移。
2024-05-13 14:18:25
1616
1
原创 【论文阅读笔记】Attention Is All You Need
这是17年的老论文了,Transformer的出处,刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。在此论文之前,序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构,是完全基于注意力机制的模型。Transformer在序列转换上具有高并行度,在两个机器翻译的任务上都得到了卓越的成果,且其训练时间显著减少。在WMT2024的英语转法语翻译任务上,本文的Transformer模型在8张P100 GPU上训练。
2024-04-08 13:37:40
1521
1
原创 【论文阅读笔记】Activating More Pixels in Image Super-Resolution Transformer
使用LAM方法测试(可以得到选择区域哪些像素贡献了最多),得到结论:虽然swinIR的平均指标更高,但基于transformer的swinIR的信息利用范围并不比基于CNN的RCAN方法要大,如下图所示。有效信息范围较小,但指标高,可能可以得出SwinIR比CNN方法拥有更大的映射能力的结论。但与此同时,由于其利用像素区域的范围有限,可能会恢复出错误的纹理。所以本文设计网络的时候考虑了在使用近self-attention结构的时候利用更多的像素用于重构。
2024-03-08 12:00:32
1661
2
原创 【论文阅读笔记】Revisiting RCAN: Improved Training for Image Super-Resolution
通过更先进的训练策略,本文使用RCAN,在Manga109数据集的×2\times2×2任务上得到了0.44dB0.44 dB0.44dB的PSNR值提升,达到了39.88dB39.88dB39.88dB。这个指标已经足够优秀,可以媲美或者超过SOTA算法,比如CRAN和SwinIR。结合自集成推断(self-ensemble inference),PSNR可以进一步提升到40.04dB40.04dB40.04dB。
2024-02-23 09:42:02
1501
1
原创 【论文阅读笔记】Bicubic++: Slim, Slimmer, Slimmest Designing an Industry-Grade Super-Resolution Network
网络的整体架构,是先进行×2\times2×2的下采样,缩小图像特征,以显著减少计算量,然后在最后使用×6\times6×6上采样。网络架构如上图所示。在训练阶段,提出三阶段训练管道来训练网络。首先训练一个卷积层通道大于“硬件最佳点”(hardware’s sweet spot)的网络。然后在不影响权重或梯度规范的情况下,使用全局结构化层裁剪(global structured layer pruning)。
2024-02-19 16:29:03
1495
4
原创 【论文阅读笔记】AsConvSR: Fast and Lightweight Super-Resolution Network with Assembled Convolutions
之前的高效网络都是基于低分辨率(360P/540P/640P),这次挑战的分辨率为720P或1080P,之前的性能就显得有些不足。本文的工作有重新评估一些复杂拓扑的网络架构,比如Enhanced Spatial Attention(ESA)和Residual Feature Distillation Block(RFDB这些结构可以提高SR网络的性能,但也会增加模型运行时间。所以本文的策略还是选择那些简单拓扑的网络,认为那是构建高效超分辨率网络的最佳选择。这些选择包括。
2023-11-23 16:39:07
712
1
原创 【论文阅读笔记】Endoscopic navigation in the absence of CT imaging
大多数已开发的导航系统都是用于外科手术 [1, 2]。对于手术导航,几乎总是可以进行术前 CT 扫描,这些扫描在空气、骨骼和软组织之间具有高对比度。这使得外科医生能够更好地了解他们的位置、与周围骨骼和软组织的距离以及周围骨骼的厚度,使他们能够在手术过程中做出更明智的决定,并防止对附近的关键结构造成伤害,例如大脑、眼睛、视神经 、颈动脉等。本文方法与上述方法的区别在于缺乏患者特定的手术扫描。为了弥补这个缺陷,作者利用过去的CT扫描来建立相关结构的统计形状模型。
2023-08-29 11:35:40
661
原创 【论文阅读笔记】Advanced Endoscopic Navigation: Surgical Big Data, Methodology, and Applications
在介入治疗(Interventional)的内窥镜检查(比如支气管镜检查,结肠镜检查,腹腔镜检查,膀胱镜检查)已经是广泛实施的一种方式,是为了诊断可疑病变或指导体腔内各种器官的微创手术。内窥镜导航系统,寻求将大数据和患者解剖结构相关的多模态信息(比如计算机断层扫描、磁共振图像、内窥镜视频序列、超声图像、外部跟踪器等)集成,用于控制医用内窥镜和手术工具的运动,以及指导外科医生在使用内窥镜期间的行为。然而,实现下一代上下文感知导航内窥镜检查仍然具有挑战性。
2023-08-24 10:13:34
635
原创 【论文阅读笔记】Fast Bilateral Filtering for the Display of High-Dynamic-Range Images
在拍照过程中,光线管理不善—主要角色之后的光线区域曝光不足或者过度是照片坏照的最常见原因。这就是相机制造商开发复杂的曝光测光系统的原因。不幸的是,曝光只能通过全局对比度管理。也就是说,它会将强度窗口重新定位在最相关的范围内。如果强度范围太大,照片将包含曝光不足和过度曝光的区域,如下图111最右边所示。本文的方法,将高动态范围图像作为输入,并在保留图像细节的同时压缩对比度,如Tumblin [1999]所介绍的那样。
2023-06-07 12:04:07
1767
2
原创 【论文阅读笔记】Edge-Preserving Decompositions for Multi-Scale Tone and Detail Manipulation
作者认为,双边滤波非常适合去躁和精细尺度上的细节提取。但作者认为其不太合适任意尺度的细节提取,而任意尺度的细节提取对于多尺度解耦是必要的。比如,为了减少HDR图像的动态范围,通常对基础层进行非线性压缩映射,然后与(可能衰减或增强的)细节层重新组合[Pattanaik et al. 1998;Fattal et al. [2007]采用了相似的过程来增强形状和细节,除了他们的重点是增强和/或组合来自多个来源的细节层,而不是压缩整体动态范围。在增强的时候,图像被分为基础层和细节层。
2023-06-05 11:47:17
993
1
原创 【论文阅读笔记】Contrast image correction method
在图像处理领域,已经有几种调整图像对比度的方法。通常,可以将这些算法分为两类对比度校正:全局校正和局部校正。当必须同时调整阴影和高光细节时,全局对比度校正可能会产生令人失望的结果。另一方面,局部对比度校正的优点是它们提供了一种将一个输入值映射到许多不同输出值的方法,这取决于相邻像素的值,并允许以这种方式同时进行阴影和高光调整。在全局对比度增强技术中,ganma校正和直方图均衡化是最常见的。在图像原始灰度分布的基础上,将图像的直方图重塑为不同的具有均匀分布特性的直方图,以增强对比度。
2023-05-29 21:11:57
989
1
原创 【论文阅读笔记】Domain Transform for Edge-Aware Image and Video Processing
本文提出了一种实时对图像和视频执行高质量边缘保留过滤的方法,主要是通过基于距离的1D卷积核来完成2D卷积的操作,这也是对称卷积中较为常用的加速方式。但这里不同的地方在于,它不是对称卷积,两个1D卷积核都是基于邻间像素距离来实现自适应边缘保留滤波。本文的域变换和边缘保留滤波可以实现多种功能,包括边缘保留过滤、景深效果、风格化、重新着色、着色、细节增强和色调映射。本文实现了三种边缘保留的一维卷积:基于归一化的卷积,插值卷积和递归方式的卷积。这些滤波器都有非常明显的脉冲响应,使得每一个都有更适合其特定的应用。
2023-03-30 20:30:39
1122
2
原创 在bash通过前缀使用Up/Down匹配历史命令
通过前缀,使用Up/Down按键自动补全历史命令。(定向搜索历史命令)机器比较多,总是重复检索,记录一下。
2023-03-27 09:28:52
254
原创 【论文阅读笔记】Multi-Scale Separable Network for Ultra-High-Definition Video Deblurring
1
2023-02-11 14:09:34
358
1
原创 【论文阅读笔记】CycleISP: Real Image Restoration via Improved Data Synthesis
真实图像去噪
2022-12-20 15:08:57
1733
1
原创 【论文阅读笔记】Noise2Noise: Learning Image Restoration without Clean Data
无监督去噪
2022-12-08 21:04:20
1595
1
原创 【论文阅读笔记】A review of the deep learning methods for medical images super resolution problems
医疗图像超分综述
2022-12-01 20:04:03
1037
1
原创 【论文阅读笔记】Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
RepLKNet
2022-07-20 11:03:27
2161
原创 【论文阅读笔记】NITRE 2022 Challenge on Efficient Super-Resolution: Methods and Results
ESR竞赛
2022-06-30 15:17:41
3575
2
原创 Python安装skimage库,及其引用异常排查
skimage库的安装,也就是scikit-learn,直接使用pip即可安装pip install scikit-learn出现的问题在引用skimage的时候,出现相关库找不到的问题,描述为: from scipy.linalg import _fblas # 最后引发问题的地方ImportError: DLL load failed: 找不到指定的模块。无效尝试:有的人在库的链接上,下载了相关轮子,安装了就能用。但对我无效,下载地址为https://www.lfd.uci.edu/~
2022-04-21 12:02:24
3995
原创 【C++基础】头文件定义问题导致的重定义问题
定义语句放在头文件可能会产生重定义问题,所以尽量定义语句不要放在头文件中。 多个不同文件引用同一个头文件,或者同一个文件多次引用一个头文件,就可能会产生重定义问题。因为每次包含某个头文件的时候,相当于将该文件下的局部变量或者内联函数进行了全局化。因此,多次包含同一个头文件就可能会产生重定义问题;出现问题的代码编号可能有C2084,函数" "已有主体以及C2374,重定义;多次初始化;解决方法也很简单,添加头文件保护符就行:#ifndef tmp_H#define tmp_H/*代码在
2022-03-22 20:11:36
4408
2
原创 【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge
论文地址:https://arxiv.org/abs/2105.08826论文小结 这比赛的目标是在移动手机上得到实时运行的视频超分算法,目标在480p(实际上是180∗30180*30180∗30)分辨率输入下得到HD分辨率,且有80FPS。训练数据集为REDS,4倍超分,在OPPO Find x2手机上,865的芯片,Qualcomm Adreno 650 CPU,浮点数网络(之前的SISR目标是定点数网络)。 视频超分比赛输入为180∗320180*320180∗320,目标是4倍上采样,图
2022-03-16 14:53:02
4747
原创 【论文阅读笔记】Real-Time Quantized Image Super-Resolution on Mobile NPUs,Mobile AI 2021 Challenge: Report
论文地址:https://arxiv.org/abs/2105.07825论文小结 这是2021年的一个移动端超分算法的比赛,其要求的目标平台有只能运行INT8的电视等,所以要求模型是全量化的。模型算法的目标是3倍超分,到1080P分辨率,即640∗360640*360640∗360到1920∗10801920*10801920∗1080,目标时间是404040-606060ms之内完成。模型的运行时间是在Synaptics VS680 Smart Home board with a dedicate
2022-03-04 15:05:54
3978
原创 【论文阅读笔记】Extremely Lightweight Quantization Robust Real-Time Single-Image Super Resolution for Mobile
论文地址:https://arxiv.org/abs/2105.10288代码地址:https://github.com/cxzhou95/XLSR论文小结 本文的方法名为 XLSR ,名义上获得了2021年Mobile AI SISR比赛的冠军。该比赛目标是移动平台,模型的所有参数和推理都需要是INT8量化的,所以该比赛下的论文模型都是INT8量化的。总得来说,论文所做基本可分为两点:(1)选择一个合适的基础框架模块;(2)为SR模型的输出添加一个Clip ReLU模块;
2022-02-23 18:27:08
1329
原创 【论文阅读笔记】Lightweight Image Super-Resolution with Enhanced CNN
论文地址:https://arxiv.org/abs/2007.04344代码地址:https://github.com/hellloxiaotian/LESRCNN)论文小结 本文的模型名字叫做 LESRCNN ,为lightweight enchanced SR CNN。目标与名字一样,想弄一个轻量级可以在端上推理的模型。作者的设备为 I7-7800 和 1080Ti,内存大小为16G,推理时长如下图所示。模型主体有23层卷积层,卷积核为3∗33*33∗3和1∗11*11∗1交替进行,看起来不小
2022-02-16 15:26:22
3548
原创 【论文阅读笔记】Real-Time Super-Resolution System of 4K-Video Based on Deep Learning
论文地址:https://arxiv.org/abs/2107.05307代码地址:https://github.com/Thmen/EGVSR论文小结 本文的方法名为 EGVSR ,Efficient and Generic video Super-Resolution,意味通用的高效视频超分方法,基于时空对抗学习得到时空相干性。论文中称EGVSR在GPU上能达到 4K@29.61FPS,1080p@66.9FPS,720p@70.0FPS 的速度,但是并未指明所使用的GPU和CPU型号的平台(有
2021-09-28 17:33:30
2266
原创 python导入Scipy子模块失败(DLl load failed)
触发代码:from scipy import signal而使用import scipy是能够正常运行的。从https://blog.youkuaiyun.com/u010585964/article/details/77891502得到解决方案,要numpy 和scipy同时安装;详情请见上面链接。
2021-09-26 10:38:03
2366
原创 【论文阅读笔记】Real-Time High-Resolution Background Matting
论文地址:https://arxiv.org/abs/2012.07810代码地址:https://github.com/PeterL1n/BackgroundMattingV2论文小结 本文的方法名为BGMv2,其前身为Background Matting: The World Is Your Green Screen(512*512分辨率下达到8fps)是一个不需要Trimap的Matting方法。本系列的方法,需要提供一个背景图片,但不需要完全精确对齐的背景。前文提供了一个效果较好的提升模型,
2021-09-23 17:31:42
2567
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人