- 博客(13)
- 资源 (8)
- 收藏
- 关注
原创 用通俗易懂的方式讲解 Unet的不同版本
U-Net是一种用于图像处理的U形神经网络结构,核心思想是通过"先拆解后组装"的方式完成图像分割、修复等任务。基础版U-Net包含下采样(编码器)提取特征、瓶颈层整合信息、上采样(解码器)重建图像,并通过跳跃连接保留细节。其变种包括:ResUNet引入残差块增强训练稳定性;AttentionUNet加入注意力机制聚焦关键区域;U-Net++采用密集连接促进特征融合;DeepLabv3+结合强大编码器和多尺度模块。这些改进使U-Net家族在医学影像、卫星图像等任务中表现优异,平衡了精度与计
2025-07-04 09:23:29
1025
原创 以通俗易懂的方式讲解 StyleGAN
选“基因液”: 选择或随机生成一管“人脸基因编码液”。翻译整理: “映射网络”把这管复杂编码液拆解、翻译成一组组清晰独立的“风格控制信号”(管1管头发、管2管五官...)。分层作画: “画家”开始画画,从非常模糊的图像开始,一步步增加分辨率(越来越清晰)。逐层调风格: 在每一层变清晰的过程中(比如4x4像素 -> 8x8像素 -> 16x16像素 ... 一直到大图):“调音台” (AdaIN) 介入:。
2025-07-04 09:06:15
718
原创 用最通俗易懂的方式讲解 LSTM
想象一下,你在读一本长篇小说。为了理解当前这一页的内容,你不仅需要看这一页的文字,还需要记住前面几页甚至几十页的关键情节(比如主角是谁、他们之间的关系、之前发生了什么重要事件)。你的大脑会(比如主角的动机),(比如路人甲穿什么颜色的衣服),并且。普通的 RNN(循环神经网络)LSTM(长短期记忆网络) 就是为了解决这个问题而设计的!它就像一个更聪明、更有条理的读者,拥有一个和一套。。
2025-06-20 21:14:48
561
原创 通俗易懂的讲解GAN网络
《《大家如果觉得博主写的不错,可以关注一下通俗讲解这个系列的专栏哈,会持续更新~~》》我们把GAN想象成一个“伪钞专家培养计划”,让这个复杂的概念变得生动起来!。
2025-06-20 10:28:58
1211
原创 用最通俗易懂的方式讲解Transformer在视觉中的应用
想象一下,我们要教一个非常聪明的、但之前只看过文字的机器人学会识别图片里的东西。传统的方式(比如卷积神经网络 CNN)是怎么做的呢?
2025-06-19 10:34:53
1246
1
原创 VMamba 与Mamba Vision的对比
两者都是成功的尝试,也各有优缺点。后续的研究(如Vim, LocalMamba, EfficientVMamba等)往往借鉴或融合了这些思想。选择哪种或哪类方法更好,取决于具体的任务、效率要求和实现细节。这两者的出现极大地丰富了视觉领域对高效长序列建模模型的选择。VMamba 和 Mamba Vision 都是推动视觉Mamba发展的重要里程碑。”来感知二维空间,而 Mamba Vision 选择“可以简单理解为:VMamba 选择“
2025-06-18 16:40:11
868
原创 验证 Vmamba 时出现以下报错module ‘triton.language.math‘ has no attribute ‘log1p‘
解决验证 Vmamba 时出现以下报错module 'triton.language.math' has no attribute 'log1p'
2025-04-23 16:59:38
489
2
原创 召回率(Recall),精确率(Precision),TP(True Positive),FP(False Positive),TN(True Negative),FN(False Negative)
混淆矩阵 真实值 预测值 Positive Negative Positive True Positive False Positive Negative False Negative True Negative 真实值是Positive,模型认为是Positive的数量(True Positive=TP)真实值是Positive,模型认为是Negative的数量(False Negative=FN)真实值是Negati.
2021-10-27 10:58:03
1195
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅