- 博客(36)
- 收藏
- 关注
原创 我的创作纪念日
在写作的过程中,我也在不断复盘自己的写作模式,希望自己能够清晰的表达出自己想要表达的内容,我知道技术本身是枯燥的,所以自己尽可能的把内容已一种简单易懂的方式讲解给大家。这个过程中自身也有不少成长!说起来为什么会写博客,我还记得21年的时候,看到别人都在优快云上面写博客分享自己的技术或者内容,我就在想为什么自己不也成为一个创作者呢,于是,与优快云的结缘开始,我在21年就发表了自己的第一篇文章,但是后面由于某些原因断更了,然后后面到了研究生阶段再次开始自己的写作之路。原来坚持会有收获的!
2025-03-26 15:37:19
304
原创 (保姆级教程)Windows系统本地部署通义万相2.1视频生成模型
2025年2月25日,阿里云旗下视频生成模型万相2.1宣布开源,提供1.3B和14B两个参数规格的全部推理代码和权重代码,可以用来文生视频和图生视频。接下来我们就一起来本地部署万相模型。
2025-03-02 20:19:17
2945
1
原创 深度学习中的经典模型:VGG详解
VGG是深度学习中的一个经典模型,它的简单结构和优异性能使其成为图像分类任务的重要工具。虽然VGG的参数量较大,计算成本较高,但它的设计思想对后续的模型(如ResNet,Inception等)产生了深远的影响。希望这篇博客能够帮助你更好的理解VGG模型!
2025-01-19 10:30:00
2074
原创 深度学习中常见的激活函数详解
激活函数是神经网络中不可或缺的组成部分。在神经元中,输入的信号经过一系列加权求和后,会作用于一个激活函数。这个函数决定了是否传递信号以及要发射给下一个神经元的内容。简单来说,激活函数就像是一个“开关”,控制着神经元的激活状态。激活函数的主要作用是增加神经网络模型的非线性。如果没有激活函数,无论神经网络有多少层,其本质上仍然是一个线性模型,只能学习线性可分的数据。而激活函数的引入,使得神经网络可以任意逼近任何非线性函数,从而应用到众多的非线性模型中,如图像识别、自然语言处理等复杂任务。
2025-01-12 21:24:07
1107
原创 Transformer知识梳理
Transformer模型本质上都是预训练语言模型,大部分采用自监督学习(Self-supervised Learning)的方式在大量生语料上进行训练,也就是说,训练这些Transformer模型完全不需要人工标注数据。自监督学习是一种训练目标可以根据模型的输入自动计算的训练方法。基于句子的前n个词来预测下一个词,因为输出依赖于过去和当前的输入,因此该任务被称为因果语言建模(causal language modeling)。
2025-01-05 22:37:45
822
原创 深度学习分类模型评估指标详解:TPFPTNFN
混淆矩阵式一个表格,用于描述分类模型的表现,具体是将实际类别与预测类别进行比较。真正例(TP):模型正确预测了正类。假正例(FP):模型错误地预测为正类。真负例(TN):模型正确预测了负类。假负例(FN):模型错误地预测为负类。通过理解混淆矩阵及其相关的评估指标,我们可以更全面地分析模型的性能,并根据实际情况调整模型或算法,已达到更好的效果。
2024-12-29 10:30:00
878
原创 深度学习任务简介:分类、回归和生成
分类任务是指根据输入的数据(如图像、文本或语音),将其归类到预定的类别中。简单来说,分类任务的目标是“判断输入属于哪个类别”。分类任务的常见应用图像分类:例如,给定一只猫和狗的图片,模型的任务是判断图片中是猫还是狗。常见的图像分类任务包括识别动物、交通标志、医疗影像等。情感分析:在文本处理领域,分类任务常用于情感分析。比如,判断一条社交媒体帖子是正面的、负面的,还是中立的。垃圾邮件分类:邮件系统中的垃圾邮件分类任务,通过分析邮件的内容,自动将垃圾邮件从正常邮件中分离出来。
2024-12-22 22:05:15
1821
原创 Linux系统下多任务管理器:screen使用指南
在Linux和类Unix系统的世界里,命令行是用于与系统交互的主要方式之一。然而,当涉及到远程服务器管理、长时间运行的任务或者同时处理多个任务时,标准的命令行终端可能难以达到我们的需求,尤其是长时间在服务器上跑训练模型时。这个时候,`Screen`就成为了一个不可或缺的工具。它使得我们可以在Linux系统上在同一终端窗口中运行多个shell会话,还能在断开连接后继续维持这些会话,确保任务不受干扰地完成。本文将介绍`Screen`的安装和基本使用方法,并分享一些高级技巧。
2024-12-15 21:58:41
727
原创 深入解析神经网络的GPU显存占用与优化
显存(GPU Memory)是图像处理器(GPU)上的专用内存,用于存储和处理图形数据及其他需要高并行计算的数据。在深度学习中,显存主要用于存储神经网络的模型参数、输入数据、中间计算结果(激活值)和梯度信息等。显存的重要性高并行计算:GPU具有大量的计算核心,能够并行处理大量数据,显存的高速访问能力支持这一特性。存储大量数据:神经网络尤其是深层网络,包含大量参数和中间计算结果,显存需要足够大以容纳这些数据。
2024-12-08 20:30:00
1338
原创 注意力机制的简单实现及代码示例说明
在深度学习中,注意力机制(Attention Mechanism)是一种让模型专注于输入的关键部分,而选择性的忽略一些不太相关部分的技术。它源自于人类视觉和认知过程——当我们进行视觉感知或语言理解时,并不是所有的信息都同等重视,相反,我们会根据任务的需要将更多的“注意力”集中在某些关键部分。
2024-12-01 10:30:00
1091
原创 深度学习中的归一化方法详解
在深度学习中,归一化(Normalization)是一种关键的技术,它通过调整数据的分布,使得模型训练更加稳定、高效。归一化方法可以应用于输入数据、隐藏层激活值、甚至权重参数。归一化的主要作用有加速模型收敛(减少训练过程中的梯度消失或爆炸问题)、稳定训练过程(缓解内部协变量偏移问题)以及提高模型性能(增强模型的泛化能力,防止过拟合)。
2024-11-24 10:30:00
1336
原创 深度学习中的Pixel Shuffle和Pixel Unshuffle:图像超分辨率的秘密武器
Pixel Shuffle是一种从特征图中提取空间信息的方法,主要应用于图像超分辨率等任务。超分辨率(Super-Resolution,SR)指的是通过机器学习算法生成比输入分辨率更好的图像。Pixel Shuffle操作可以帮助模型通过减少通道数、扩大空间分辨率来重建出更精细的图像。这不仅有效提升了模型的效果,还在一定程度上降低了计算成本。
2024-11-15 12:28:06
3969
原创 深度学习中的感受野:从基础概念到多层次特征提取
在深度学习,特别是计算机视觉任务中,感受野(Receptive Field)是一个至关重要的概念。它指的是在神经网络中某一层的神经元在输入图像上“看到”的区域大小。感受野的大小影响了网络能捕捉的特征层级,从而决定了它的特征提取能力。因此,理解感受野如何逐层扩展、如何对不同特征进行分级,是深入理解深度学习图像处理的关键。
2024-11-10 21:37:53
2031
原创 深度学习代码训练环境之CUDA详解
UDA(Compute Unified Device Architecture)是由NVIDIA开发的并行计算平台和编程模型,专门用于在NVIDIA的GPU(图像处理单元)上进行计算加速。CUDA允许开发者利用GPU的强大计算能力来执行通常由CPU处理的复杂计算任务,如深度学习、科学计算和图像处理等。这种架构在深度学习、计算机视觉、自然语言处理和其他需要高并发计算的领域具有广泛应用。
2024-11-03 10:30:00
2393
原创 单目深度估计评价指标及其含义说明
在单目深度估计的任务中,评价模型性能的指标是衡量其准确性和可靠性的重要工具。在模型的训练过程中,没有单一的评估指标能够全面评价所有深度估计算法的性能,通常需要结合多个指标,根据具体的应用需求和场景来综合评价算法的好坏。本文将详细探讨几种常用的评估指标,包括AbsRel(绝对相对误差)、SqRel(平方相对误差)、RMSE(均方根误差)、RMSE Log(对数均方根误差)、Si-Log(尺度不变对数误差)和Accuracy with Threshold(准确率)等评价指标。
2024-10-27 10:30:00
1992
原创 ResNet的理解与应用
随着深度学习的不断发展,神经网络的层数越来越深。然而,网络层数的增加并不总是带来性能的提升,反而可能导致梯度消失或梯度爆炸等问题。为了解决这些问题,何恺明等人在2015年提出了残差网络(ResNet),这在深度学习领域引起了革命性的突破。
2024-10-20 20:49:24
1261
原创 PyTorch中的with torch.no_grad:节省计算资源与加速推理的关键
with torch.no_grad是一个上下文管理器,它能够在其作用域内禁止计算图的构建。这意味着在推理过程中,PyTorch不会为前向传播操作生成计算图,从而节省显存和计算资源。这对于大型模型或在资源受限的环境下进行模型部署至关重要。
2024-10-13 21:11:19
601
2
原创 深度学习中的损失函数详解
在深度学习的世界中,损失函数(Loss Function)是最关键的组成部分之一,它帮助我们评估模型的预测与真实标签之间的差距。无论是回归问题、分类问题,还是更复杂的生成模型问题,损失函数都扮演者核心角色。通过最小化损失函数,模型能够逐渐优化其性能,从而提升对未见数据的泛化能力。
2024-10-06 20:23:33
2192
1
原创 深度估计任务中的有监督和无监督训练
有监督训练和无监督训练在深度估计任务中都有各自的优缺点。有监督训练可以利用真实深度图来学习准确的深度信息,但数据获取成本高,容易过拟合。无监督训练不需要标注数据,数据获取成本低,但学习到的深度信息可能不够准确。在实际的任务中,可以根据具体情况选择合适的训练方法,或者结合有监督和无监督两种方法来提高深度估计的性能。
2024-09-29 22:12:49
773
原创 扩散模型中的prediction_type详解
`prediction_type`是扩散模型中调度器(scheduler)的一个重要参数。它决定了模型在训练和推理过程中如何预测噪声或潜在变量,不同的预测类型会影响模型的性能和生成效果。
2024-09-20 19:24:37
1674
原创 Transformer的自注意力机制如何应用到图像领域
Transformer在文本领域取得相当大的成功,那么如果将transformer模型以及注意力机制应用到图像领域,会不会也取得非常好的效果呢,那么transformer又将如何应用在图像领域呢?在图像处理中,自注意力机制可以用来捕捉图像中不同区域之间的关系,这对于许多计算机视觉任务非常有用,比如图像分类、物体检测、语义分割等。下面我将解释自注意力机制在图像处理中的应用方式。
2024-09-15 13:08:11
560
原创 计算机视觉任务中数字图像处理的频率域和空间域
空间域和频率域是信号处理中的两个基本概念,它们分别用于描述信号的不同特性。在计算机视觉任务中,频率域和空间域是处理图像和分析图像特征的两种不同的视角或域。在深度学习领域中,我们可以根据特定任务的需求,选择合适的域(空间域/频率域)来对图像进行处理以取得我们想要的结果。
2024-09-05 16:04:38
1554
原创 自注意力的计算
Transformer模型中的自注意力(self-attention)机制是通过一种特定的方式让模型学习到输入序列中不同为止的词之间的相关性。
2024-09-01 19:49:50
1080
原创 机器学习中为什么使用张量
张量(Tensor)是数学中的一个概念,用于表示在多个维度上进行索引的数据集合。在机器学习和深度学习中,张量是数据的一种表现形式,它扩展了线性代数中的向量(一维数组)和矩阵(二维数组)的概念,是一种非常重要的数据结构,也可以被视为多维数组,它们能够高效的处理和操作大量的数值数据。
2024-08-23 12:29:31
1180
原创 ViT中的Postion Embedding(位置编码)详解:数据从一维到二维的变化
Transformer有效的解决了长距离依赖问题,并且有良好的可扩展性,适用于处理序列化的数据,NLP中的语句刚好就是序列化的数据,但是在计算机视觉中,图像属于二维数据,那么如何在二维数据中应用到transformer呢,针对这个问题,ViT的作者提出一种位置编码策略,将一张图片切分成相同大小的块,然后给每个块进行位置编码成为一个序列,然后再使用transformer进行训练。本篇内容带大家详细了解一下ViT中的位置编码。
2024-08-23 12:21:37
4652
原创 Transformer中的自注意力机制:从公式原理到运算过程详细阐述
Transformer是一种用于自然语言处理(NLP)和其他序列到序列(Seq2Seq)任务的深度学习模型框架,在2017年由Vaswani等人首次提出。在此之前,RNN结构能够捕获时序信息,但是不能用于并行计算,CNN结构能够并行,但是不能够捕获时序信息。Transformer利用attention代替RNN结构,能够有效地捕捉序列间的长距离依赖关系,还可以实现并行运算,加速模型的计算。
2024-08-18 15:33:54
2497
原创 draw的安装和使用及其与visio的对比
draw和visio在性能比较方面,在处理大型图表时,draw是具有一定的优势的。draw作为一款强大、免费、开源的绘图工具,支持多端使用,另外还可以与VS Code相结合进行使用,使得使用起来更加丰富和方便。相比之下visio是一款专业绘图和设计的软件,但它并不是免费的工具,而且在某些功能上面不如draw灵活,绘制图表时也没有draw智能。个人体验下来draw的用户体验相比于visio要好,而且操作也相对来说更加灵活便利。
2024-08-11 11:26:29
2676
原创 Python的魔法方法探秘:__call__方法详解
在Python中,`__call__`是一个特殊的方法,它允许我们像调用函数那样调用一个对象。当一个类定义了`__call__`方法后,其类的实例就可以接受括号内的调用。这相当于给对象添加了一个“调用接口“,使其具备了动态执行的能力。这种机制在某些场景下可以极大提高代码的可读性和复用性。
2024-08-04 22:14:34
1108
原创 Git从安装包下载到安装教程
最近由于更换了新的工作设备,所有的环境都需要重新配置,而我之前的那个设备上面Git版本是2.24.0,也是很久之前的一个版本了,去Git官网看了一下目前都已经是2.45.2了,所以也趁这个机会来记录一下Git从0到1全流程的安装教程,也包括从镜像站下载安装包。
2024-07-28 20:32:43
1238
原创 Stable Diffusion网络结构模块解析之switch
在深度学习模型中,注意力机制是一种让模型能够“集中精力”在某一部分数据上的方法。就像你在做数学题时,可能会更关注那些复杂的计算步骤一样,模型也需要在处理数据时关注最重要的部分。
2024-07-19 21:57:33
762
原创 (保姆级教程)Ubuntu系统复现Marigold
最近在看深度估计方面的文章,发现了Marigold,它是一种基于扩散模型的单目深度估计技术,通过在Stable Diffusion图像生成模型的基础上进行微调,实现了在多个真实世界数据集上的高准确度和强泛化能力,无需从头开始训练即可高效地预测单个图像的深度信息。接下来我将展示从零开始Marigold的复现。
2024-07-10 21:43:48
1818
14
翻译 A Dual Weighting Label Assignment Scheme for Object Detection
标签分配(LA)旨在为每个训练样本分配正(pos)和负(neg)损失权重,在目标检测中发挥着重要作用。现有的LA方法大多侧重于pos权重函数的设计,而neg权重则直接由pos权重导出。这种机制限制了探测器的学习能力。在本文中,我们探索了一种新的加权范式,成为双重加权(DW),以分别制定正权重和负权重。我们首先通过分析目标检测中的评估指标来确定pos/neg权重的关键影响因素,然后根据它们设计pos和neg权重函数。具体来说,
2024-01-21 20:15:54
292
原创 Word中文章如何快速引用文献以及文献格式设置
当然,当你点进去一篇文章查看完它的摘要之后发现自己要引用,在这个界面同样也提供了快速引用的入口,如图中所示,其他论文网站也都有相似功能,有的是提供了双引号的标志,有的是提供了“Cite”,这些提示都是显示可以直接快速引用,怎么样,这个是不是很有用,学会之后再也不用手动去输入参考文献,不用去考虑手动输入的格式是否正确,就 可以节省下一大笔时间了(想当初如果我早知道可以这样,也不会流下那么多心酸的眼泪了555)。电子文献的载体类型:互联网[OL],光盘[CD],磁带[MT],磁盘[DK]
2024-01-14 21:48:20
18237
2
原创 机器学习基础词汇合集
具体的表现形式为网络对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。写这篇文章的原因是因为本人最近也在学习机器学习方面的相关知识,但是由于之前没有接触过相关的内容,对机器学习的一些相关词汇以及基础知识都不太了解,所以整理出一篇机器学习基础词汇合集来进行记录,以便自己后期遗忘的时候再来查看复习,同时也把这篇文章分享出来供大家查看。如果模型对于输入数据的平移敏感,那么就会导致模型在测试时出现较高的误差率。
2024-01-07 21:00:51
1018
1
原创 HTTP协议入门详解
HTTP协议入门详解本文为HTTP协议的讲解,主要讲述URL,HTTP请求与响应,与HTTPS的区别于联系。HTTP简介HTTP协议(超文本传输协议HyperText Transfer Protocol),它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。注:客户端与服务器的角色不是固定的,一端充当客户端,也可能在某次请求中充当服务器。这取决与请求的发起端。HTTP协议属于应用层,建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接,之后发送HTTP请求
2021-03-21 15:39:15
340
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人