xiaoh_7-优快云博客

原创解决视频处理中的 HEVC 解码错误：Could not find ref with POC xxx【已解决】

解决了视频处理中的 HEVC 解码错误：Could not find ref with POC xx的问题

2025-04-25 16:52:46 491

原创总结一下 KNN、K-means 和 SVM【附代码实现】

在机器学习中感觉经常被问的几个算法：K近邻算法（K-Nearest Neighbors, KNN）、K均值聚类算法（K-means）以及支持向量机（Support Vector Machine, SVM）。给自己做个总结笔记，并贴出来，如果有误欢迎指出。

2024-10-03 22:21:04 1732 1

原创多模态论文一：CLIP模型主要内容讲解【原理+代码】

在人工智能的浪潮中，图像识别与自然语言处理一直是两个独立的领域。然而，OpenAI的CLIP模型（Contrastive Language-Image Pre-training）的出现，彻底改变了这一格局。本文将带您深入了解CLIP模型的核心原理、预训练过程以及其在零样本学习、图像分类和文本到图像检索等任务中的卓越表现。通过对比学习的力量，CLIP模型不仅能够理解图像与文本之间的深层关联，还能在未见过的类别上实现惊人的零样本迁移能力。

2024-07-26 14:22:52 6896

原创 NeRF：从二维图像到三维重建【初识！原理通俗讲解】

简单介绍了NeRF这个三维重建模型的输入前处理、模型结构、位置编码、体渲染及反渲染技术，NeRF实现了从二维图像到三维重建的过程。其在高质量三维重建和细节捕捉方面的出色表现，使其在学术研究和实际应用中都展示了广阔的前景。

2024-07-24 16:03:33 2497

原创 Transformer加速工具包：探索 vLLM、DeepSpeed 和 CTranslate2【通俗易懂，附代码】

在我最近的学习中，简单了解了几种用于加速 Transformer 模型的工具包，包括 vLLM、DeepSpeed 和 CTranslate2。每个工具包都有其独特的优势和适用场景，做个笔记，记录一些心得和简单的使用方法（包括了NLP和CV方面的transformer）。CTranslate2 是一个高效的推理引擎，专为 Transformer 模型优化，特别适用于机器翻译和其他自然语言处理任务。使用 DeepSpeed 后，可以高效地训练 ViT 模型，并且显存占用大幅减少，极大提升了训练效率。

2024-07-15 20:37:27 1696

原创手撕Transformer！！从每一模块原理讲解到代码实现【超详细！】

最近有空，把Transformer的每模块的原理和实现过程仔细看了一遍，记录下来，方便有需要的时候查看。

2024-07-01 14:13:41 15879 12

原创 Comfy UI使用最新SD3模型，并解决报错‘NoneType‘ object has no attribute ‘tokenize‘【实测可行】

前几天SD3发布了，所以想着尝尝鲜，便去下载了SD3来玩一玩。使用的是Comfy UI而不是Stable Diffusion UI，这是一个比SD UI更加灵活的UI界面，使用的是节点式的搭建模式。但是在使用原始的默认案例调用SD3的时候，遇到报错’NoneType’ object has no attribute ‘tokenize’因为使用的是Comfy UI官方提供的一键安装包，环境问题也没错。经过一系列排查，最后定位到原因并解决。

2024-06-17 10:56:41 7679 3

原创 ISP算法及其常用细类算法【汇总表】

最近在查漏补缺的时候，做了以下的ISP算法的常见方法表格整理，有需要的话截图自取，如果有错误的地方也欢迎指出来，一起学习！

2024-06-11 14:26:09 712

原创解决vscode终端不显示conda环境变量名称问题【详细步骤！实测可行！！】

记录并解决vscode终端不显示conda环境变量名称问题，附上了详细的操作步骤，实测可行

2024-06-05 11:04:44 10660 8

原创探索Lora：微调大型语言模型和扩散模型的低秩适配方法【原理解析，清晰简洁易懂！附代码】

Lora是一种创新且高效的微调大型模型的方法。通过低秩矩阵分解，Lora能够在保持模型性能的同时，显著减少计算资源和存储需求。本文介绍了Lora的背景、原理、公式、代码实现及其效果，希望能帮助你更好地理解和掌握这一方法。随着大型模型在各个领域的广泛应用，Lora的出现为我们提供了一种高效、实用的微调解决方案。

2024-05-29 23:48:54 2004

原创 Linux服务器报错OSError: [Errno 28] inotify watch limit reached的解决方法【实测可行】

今天我在使用服务器开启服务监听时，遇到报错OSError: [Errno 28] inotify watch limit reached。查了一下，这个报错信息表示inotify监视器的限制已经达到了系统的最大值，无法再监视更多的文件或目录。给出了解决方法。

2024-05-23 09:55:57 2236

原创 PyTorch与Weights & Biases：使用wandb训练与评估的日志和实操【附代码！】

借助wandb，您可以轻松追踪实验进展，比较不同模型的性能，从而加速模型优化和迭代过程。无论您是PyTorch的新手还是资深用户，这个博客都将为您提供宝贵的见解和实用的技巧。

2024-05-20 16:28:20 1042

原创整理常见的图像分割模型及其特点！！【附模型图】

最近因为个人学习需要，简单调研了一下图像分割模型，做了个小汇总。

2024-05-20 00:07:08 2302 1

原创机器学习算法之KNN分类算法【附python实现代码！可运行】

本博客介绍了KNNf分类算法的原理和主要思想，同时介绍了如何基于python使用scikit-learn库中的K-最近邻（KNN）分类器在鸢尾花数据集（Iris Dataset）上进行分类预测。

2024-05-09 19:20:18 5701

原创【PyTorch 实战4：DeepLabv3+图像分割模型】10min揭秘 DeepLabv3+ 分割网络架构、工作原理以及pytorch代码实现（附代码实现！）

本文将详细介绍DeepLabv3+这一图像分割模型的基本原理、关键公式，并给出了PyTorch的实现代码

2024-05-03 14:38:54 3565 3

原创 Sobel算法：边缘提取的原理与实践【基于python、C++基于opencv的代码实现！！】

Sobel算法作为边缘检测的经典方法，通过计算图像的梯度来准确捕捉边缘信息。本文深入解析了Sobel算法的原理，包括卷积操作、梯度计算与合成以及阈值处理等步骤，并探讨了其在实际应用中的优缺点。并给出了代码实现！

2024-05-01 17:30:00 2649 1

原创 AIGC技术：现状剖析与未来趋势展望

AIGC技术作为人工智能领域的一个重要分支，其发展前景广阔而充满挑战。我们期待着AIGC技术在未来能够带来更多的创新和惊喜，为人类社会的发展贡献更多的力量。。

2024-04-29 09:34:13 443

原创 PyTorch模型参数量计算【使用torchsummary库与自定义两种方法！附完整代码！！】

本文详细介绍了如何在PyTorch框架中计算模型参数量的两种实用方法。首先，通过利用torchsummary库，我们展示了如何快速获取模型的详细层信息以及参数量的统计。其次，我们介绍了如何自定义函数来计算模型参数量，这种方法更加灵活，可以根据具体需求定制输出信息。

2024-04-28 16:55:51 3040 2

原创【PyTorch 实战3：YOLOv5检测模型】10min揭秘 YOLOv5 检测网络架构、工作原理以及pytorch代码实现（附代码实现！）

本文深入介绍了YOLOv5，这是一种先进的目标检测模型，采用PyTorch实现。我们探讨了YOLOv5的架构、性能、代码实现以及应用领域，并展望了未来的发展方向。通过本文，读者将了解到YOLOv5的核心原理和实际应用，以及如何在自己的项目中使用和优化该模型。

2024-04-28 10:34:24 2970 2

原创 Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

Hugging Face平台提供了海量的预训练模型，包括顶尖的Llama 3模型。本文将详细介绍如何从Hugging Face下载Llama 3模型到本地。

2024-04-27 11:15:17 16389 8

原创 Vision Transformer (ViT)的原理讲解与后续革新【附上pytorch的代码！】

Vision Transformer (ViT)是Google团队在2020年提出的一种新型图像分类模型，它成功地将Transformer架构应用于视觉领域。通过将图像分割成多个patch并送入Transformer编码器处理，ViT模型能够在大规模数据集上实现卓越的性能，超越了传统的CNN模型。本文将详细解析ViT模型的工作原理、关键组件以及代码实现。以新手的身份来谈谈自己的理解。

2024-04-24 20:09:19 2453 1

原创 EPSANet：金字塔切分注意力网络，有效的即插即用炼丹模块【原理讲解及代码！！！】

EPSANet是一种创新的深度学习网络，其金字塔切分注意力模块能够高效处理多尺度空间信息，建立长期通道依赖关系。与现有技术相比，EPSANet显著提升了模型性能，同时在计算参数量上实现高效性。该网络即插即用，为计算机视觉任务提供强大解决方案。

2024-04-23 19:42:20 3065

原创 ECA-Net：深度卷积神经网络中的高效通道注意力机制【原理讲解及代码！！！】

本文详细介绍了ECA模块的工作原理、独特优势，并通过公式总结其核心机制，同时提供了基于pytorch实现的代码，复制即可使用！

2024-04-17 20:34:01 14215 3

原创 CBAM：一种增强卷积神经网络性能的双重注意力机制，进一步提高CNN性能【原理讲解及代码！！！】

本文介绍了CBAM（Convolutional Block Attention Module），一种用于增强卷积神经网络性能的双重注意力机制。CBAM结合了通道注意力和空间注意力，使模型能够自适应地关注于输入特征中的关键通道和空间位置。实验结果表明，CBAM在多种视觉识别任务中均取得了显著的性能提升，同时保持了较高的计算效率。

2024-04-04 00:13:48 25585 2

原创【PyTorch 实战2：UNet 分割模型】10min揭秘 UNet 分割网络如何工作以及pytorch代码实现（详细代码实现）

U-Net，自2015年诞生以来，便以其卓越的性能在分割领域崭露头角。我们详细介绍了如何使用PyTorch实现并训练一个U-Net模型，以及如何在训练和推理阶段使用它。

2024-04-01 17:20:14 9219 5

原创 NativeOverleaf：将 Overleaf 带入原生桌面应用程序【附软件安装包！！】

NativeOverleaf 是 Overleaf 的一个很好的替代方案，适用于没有稳定互联网连接或更喜欢使用本地应用程序的用户。它提供了与 Overleaf 相同的功能，但具有更快的响应速度和更熟悉的界面。

2024-03-27 11:06:24 3183 6

原创 SimAM：轻量级注意力机制，解锁卷积神经网络新潜力【原理讲解及代码！！！】

SimAM 是一种轻量级、无参数的卷积神经网络注意力机制，它通过计算特征图的局部自相似性来生成注意力权重，无需引入任何额外参数，即可有效提升 CNN 的性能。

2024-03-25 15:53:29 15023 6

原创 EfficientSAM：轻量级的视觉基础分割模型【清晰明了！】

EfficientSAM 是一种轻量级视觉分割基础模型，在保证精度的同时，大幅降低了模型复杂度和内存成本。它采用了遮蔽图像预训练 (SAMI) 和优化轻量级 ViT 图像编码器等创新方法，在图像分类、对象检测、实例分割等多种任务上都取得了优异的成绩。

2024-03-20 17:08:25 3024 2

原创【PyTorch 实战1：ResNet 分类模型】10min揭秘 ResNet如何轻松训练超深层网络以及pytorch代码实现

10分钟带你了解 ResNet 原理，代码实现和应用场景！PyTorch 代码示例，带你一步步构建 ResNet 分类模型！

2024-03-17 17:44:03 2060 3

原创 ChatGPT报错：we ran into an issue while signing you in, please take a break and try again soon.

ChatGPT登陆时报错：we ran into an issue while signing you in, please take a break and try again soon.

2024-03-12 20:01:49 6113 14

原创【实测可行！】vscode连接服务器 waiting for server log，且报错：无法远程连接到服务器

记录并解决 VSCode ssh 连接远程服务器时报错 waiting for server log

2024-03-05 18:21:11 3393 4

原创 xshell同时对所有打开的会话窗口输入并执行同一个命令【简单操作！】

简单操作，实现xshell多会话窗口的命令执行

2024-02-21 12:36:13 3530

原创初探OpenAI新模型：Sora【当前文本生成视频最强模型！】

OpenAI新模型Sora的视频生成能力正在颠覆我们关于扩散模型的理解，这款基于扩散模型的视频生成模型提供了一种全新的方式来生成自然、清晰度高的视频。只需一个简单的文本提示，Sora就能生成出各种类型的视频，同时展示出在光影、物理遮挡、碰撞等方面极其出色的处理能力。Sora的强大视频生成能力，使其在未来有可能在视频内容创作、虚拟现实、电影制作等领域发挥重大的影响力。期待在未来继续关注Sora的发展和应用，它旨在颠覆我们对人工智能领域的认知，推动人工智能向一个全新的发展阶段迈进。

2024-02-21 07:57:54 618 2

原创基于生成对抗网络GAN的应用：超分辨率网络SRGAN【简洁清晰！】

SRGAN是一种深度学习模型，旨在从低分辨率图像中生成高分辨率图像。它是通过将生成对抗网络（GAN）与残差网络（Residual Network）结合而成的。GAN的生成器网络负责将低分辨率图像映射到高分辨率图像空间，而鉴别器网络则试图区分生成的高分辨率图像和真实高分辨率图像之间的区别。通过这种对抗训练的方式，生成器网络逐渐学会生成更加逼真的高分辨率图像。

2024-01-30 23:26:20 2425 2

原创 GAN生成对抗网络原理分析以及Pytorch的代码实现【简单配置环境，直接拷贝代码即可运行！！】

介绍GAN生成对抗网络的原理、公式，并基于pytorch实现了简单的GAN网络模型的搭建、训练、验证。代码简单易上手！

2024-01-27 18:45:15 1592 4

原创查看与更新linux系统python版本【详细！】

查看linux服务器上系统python版本并作相应的更新、修改

2024-01-26 18:35:11 17877 4

原创【深度学习仓库常见文件及其作用】

深度学习方向的GitHub仓库常见文件的介绍

2024-01-25 14:39:40 708 4

xiaoh_7的博客