tangjunjun-owen-优快云博客

原创 Dockerfile文件构建镜像Anaconda+Python教程

在深度学习与自然语言处理领域，环境配置的复杂性常常成为开发者的痛点。本文将通过一个基于CUDA 12.1的深度学习环境Dockerfile实例，详解如何高效构建可复现的容器化开发环境，并结合Dockerfile最佳实践，助你掌握企业级镜像构建技巧。

2025-04-02 20:00:00 778

原创利用Pydantic的BaseModel简化Python中的数据处理

在开发过程中，我们经常需要处理来自不同源头的数据，这些数据可能包含各种格式和类型。确保数据的质量和一致性是构建健壮应用的关键之一。为了简化这一过程，提高代码的可维护性和可靠性，我们可以使用Pydantic库提供的`BaseModel`类。本文将简要介绍`BaseModel`的作用、适用场景，并通过实例展示其基本用法。

2025-03-19 14:13:04 720

原创 ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents论文解读

近来，deepseek火爆流行，席卷中国行业，引发了rag相关的智能体agent。然而，理解视觉丰富的文档中的信息对于传统的检索增强生成（Retrieval-Augmented Generation, RAG）方法来说仍然是一个重大挑战。现有的基准主要集中在基于图像的问题回答（QA），而忽视了在密集的视觉文档中进行高效检索、理解和推理的基本挑战。为了弥合这一差距，我们引入了ViDoSeek，一个旨在评估RAG在需要复杂推理的视觉丰富文档上性能的新数据集。为此，本篇文章解读ViDoRAG论文。

2025-03-11 19:00:00 652

原创 LLaVA-CoT: Let Vision Language Models Reason Step-by-Step论文解读

大型语言模型在推理能力方面展现了显著的进步，尤其是在推理时扩展方面，如OpenAI的o1模型所示。然而，当前的视觉-语言模型（VLMs）在进行系统性和结构性推理时往往面临挑战，特别是在处理复杂的视觉问答任务时。在这项工作中，我们介绍了LLaVA-CoT1，这是一种新型的VLM，旨在进行自主的多阶段推理。不同于链式思维提示，LLaVA-CoT独立地参与到摘要、视觉解释、逻辑推理和结论生成的连续阶段中。这种结构化的方法使得LLaVA-CoT在需要高度推理的任务上实现了明显的精度提升。

2025-02-19 22:15:00 900

原创 deepseek R1基本原理解读与系列论文简介

DeepSeek是一个专注于利用深度学习技术解决复杂问题的平台，旨在通过先进的算法和模型帮助研究人员和开发者探索数据深处的模式。特别值得一提的是DeepSeek R1，这是其推出的首个标志性模型或产品，凭借其卓越的性能和创新性在发布后迅速“出圈”，吸引了大量关注。DeepSeek R1不仅展示了在多个领域的强大应用潜力，如图像识别、自然语言处理等，还因其突破性的进展而获得了广泛的认可，成为人工智能领域的一个重要里程碑。它让用户能够更高效地应用深度学习技术实现创新和突破，进一步推动了该领域的发展。

2025-02-18 22:00:00 713

原创 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

DeepSeek R1 是一款基于强化学习的大规模语言模型，因其技术突破和开源共享而备受关注。它成功复现了顶尖模型的深度推理能力，并且是开源的，让全球的研究者和开发者可以自由使用和改进。DeepSeek R1 不仅在数学、算法等领域表现出色，还展示了跨任务应用的能力，如写作等。该模型在资源有限的情况下，通过算法创新实现了高效性能，降低了使用门槛，并通过一键部署简化了接入流程。

2025-02-08 13:52:30 1203

原创第十节：通过Debug解析ChatGLMModel的数据流，理解视觉与语言模型结合架构

清华智普的GLM-4v-9b模型，作为优化的多模态大模型，特别适用于国内应用场景，解决了国外模型本地化不足的问题。本专栏提供环境安装、数据处理、视觉与语言模型源码理解，并基于Hugging Face重构GLM模型搭建教程，帮助理解、修改和应用GLM模型，指导搭建多模态大模型，帮助读者自由搭建与修改大模型。本节基于debug方式给出GLM-4-9B模型ChatGLMModel，理解视觉与语言模型结合架构。

2025-01-06 10:59:47 65

原创第九节：通过Debug解析ChatGLMForConditionalGeneration的数据流，理解GLM-4v-9b模型架构

2025-01-04 08:00:00 105

原创 DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM论文解读

感觉好久都没有写个一篇论文解读了，刚好此篇论文激发MLLM模型的检测能力。我也想一探究竟，因此我给出此篇论文的解读。我们提出了DetToolChain，这是一种新的提示范式，旨在释放多模态大语言模型（MLLMs），如GPT-4V和Gemini的零样本目标检测能力。我们的方法包含一个受高精度检测先验启发的检测提示工具包，以及一个新的思维链来实现这些提示。

2025-01-03 11:38:40 1347

原创第八节：GLM-4v-9b模型的大语言模型源码解读(ChatGLMForConditionalGeneration)

清华智普的GLM-4v-9b模型，作为优化的多模态大模型，特别适用于国内应用场景，解决了国外模型本地化不足的问题。本专栏提供环境安装、数据处理、视觉与语言模型源码理解，并基于Hugging Face重构GLM模型搭建教程，帮助理解、修改和应用GLM模型，指导搭建多模态大模型，帮助读者自由搭建与修改大模型。本节给出GLM-4-9B模型的视觉加载源码解读内容。

2024-12-30 10:30:08 340

原创第七节：GLM-4v-9b模型的视觉模型源码解读

清华智普的GLM-4v-9b模型，作为优化的多模态大模型，特别适用于国内应用场景，解决了国外模型本地化不足的问题。本专栏提供环境安装、数据处理、视觉与语言模型源码理解，并基于Hugging Face重构GLM模型搭建教程，帮助理解、修改和应用GLM墨西哥，指导搭建多模态大模型，帮助读者自由搭建与修改大模型。本节给出GLM-4-9B模型的视觉加载源码解读内容。

2024-12-26 21:19:46 147

原创第六节：GLM-4v-9b模型加载源码解读(模型加载方法解读)

2024-12-26 21:18:43 138

原创第五节：GLM-4v-9b模型model加载源码解读(模型相关参数方法解读)

2024-12-23 21:16:50 187

原创第四节：GLM-4v-9b模型的tokenizer源码解读

2024-12-23 21:16:01 249

原创第三节：GLM-4v-9B数据加载之huggingface数据加载方法教程(通用大模型数据加载实列)

清华智普的GLM-4v-9b模型，作为优化的多模态大模型，特别适用于国内应用场景，解决了国外模型本地化不足的问题。本专栏提供环境安装、数据处理、视觉与语言模型源码理解，并基于Hugging Face重构GLM模型搭建教程，帮助理解、修改和应用GLM墨西哥，指导搭建多模态大模型，帮助读者自由搭建与修改大模型。本节是对第二节数据处理理论补充与实列应用教程。

2024-12-23 21:14:29 252

原创第二节：GLM-4v-9B数据加载源码解读

2024-12-23 21:12:34 156

原创第一节：GLM-4-9B大模型安装、推理与训练详细教程

2024-12-23 17:53:31 1268

原创深入理解旋转位置编码（RoPE）及其在大型语言模型中的应用

随着自然语言处理（NLP）领域的快速发展，预训练的语言模型如BERT、GPT系列、PaLM、Qwen等取得了显著的成功。这些模型能够有效地捕捉文本中的语义信息，并在各种下游任务中表现出色。然而，在处理长文本序列时，准确地建模词项之间的相对位置关系对于提高模型性能至关重要。传统的绝对位置编码方法存在一定的局限性，尤其是在处理非常长的序列时。因此，研究者们提出了多种改进方案，其中旋转位置编码（RoPE）因其独特的优势而受到了广泛关注。

2024-12-17 15:42:43 1127

原创 YOLOv5与ViT目标检测中的热力图应用教程

在计算机视觉领域，理解深度学习模型如YOLOv5和Vision Transformers (ViT)如何进行目标检测至关重要。热力图作为一种强大的可视化工具，通过颜色编码的方式直观展示了模型对图像各部分的关注度，帮助我们洞察模型的决策过程。正好，我有一个transformer与cnn结合的网络，我就介绍基于CNN与transformer结构网络的热力图。本文章将介绍如何构建热力图以及实现细节等内容。

2024-12-12 15:25:41 1642

原创从KITTI到YOLO：轻松转换目标检测数据集标签格式的终极指南

在计算机视觉领域，数据标注是模型训练中不可或缺的一部分。不同的深度学习框架和算法通常要求特定的标签格式。KITTI（Karlsruhe Institute of Technology and Toyota Technological Institute）数据集是一个广泛用于自动驾驶研究的数据集，其标签文件是以文本形式保存的，并包含有关目标位置、类别等信息。YOLO（You Only Look Once）系列的目标检测算法因其快速性和准确性而备受青睐，但其所需的标签格式与KITTI不同。

2024-12-12 10:25:03 1388 3

原创异常安全重启运行机制：健壮的Ai模型训练自动化

在机器学习或深度学习模型训练中，常常会遇到内存不足、数据预处理错误等异常情况，这些问题可能导致训练中断，需手动重启。为提高训练的健壮性，我们可以设计一种机制，在遇到异常时自动终止当前任务并重新启动新的训练实例，继续下一次迭代。本文介绍如何利用 Python 的 multiprocessing 模块实现这一“异常安全重启机制”。我的动机来源于在处理 N 张图的 Grad-CAM 热力图时，每次迭代显存增加，尝试多种方法后，最终采用这种技术成功解决问题。

2024-12-11 21:45:00 1748

原创深入理解 PyTorch 自动微分机制与自定义 torch.autograd.Function

PyTorch 的自动微分（autograd）简化了梯度计算，通常无需手动实现反向传播。对于定制化需求，可通过 `torch.autograd.Function` 自定义前向和后向逻辑，利用 `ctx` 对象传递信息，确保计算正确性。掌握这些功能，用户能设计高效的自定义梯度计算，实现复杂模型与算法，满足特定研究或应用需求。

2024-12-06 10:15:41 1244

原创大语言模型数据流程源码解读(基于llama3模型)

如果只是简单构建训练与推理的大语言模型，还是比较简单，直接使用huggignface调用即可。然而，理解其源码或内部原理是比较麻烦的，尽管我在之前文章给出了很多解释，但我还是想通过数据流走向来解读模型整个流程与源码内部机理。这样，我们可方便更深入的理解大语言模型！

2024-10-28 14:57:18 1010

原创大语言模型训练与推理模型构建源码解读(huggingface)

我们已搭建了llama训练与推理方法，而llama模型来源huggingface提供。为此，本节来解读huggingface的llma模型训练与推理源码解读。

2024-10-28 14:32:28 471

原创大语言模型推理代码构建（基于llama3模型）

之前文章也已给出了自己构建llama3源码，本节给出如何构建推理代码，并给出完整源码。

2024-10-28 14:24:02 474

原创大语言模型推理源码解读(基于llama3模型:来源github)

本项目是解读开源github的代码，该项目基于Meta最新发布的新一代开源大模型Llama-3开发，是Chinese-LLaMA-Alpaca开源大模型相关系列项目（一期、二期）的第三期。而本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练，并且使用精选指令数据进行精调，进一步提升了中文基础语义和指令理解能力，相比二代相关模型获得了显著性能提升。

2024-10-25 11:31:51 726

原创 huggingface的generate推理方法源码解读

大语言模型基本使用huggingface的generate方法进行推理。而我最近也在使用llama3代码，于是我写下一份huggingface的generate方法，帮助读者了解huggingface如何对大语言模型进行推理。同样，我和其它博客不太一样，我是按照源码来解读huggingface的generate方法。

2024-10-25 11:24:25 389

原创 huggingface使用Trainer训练的Demo

大模型基本使用huggingface来实现。对于不太理解其内容基本按照官网教程或相关博客等来实现。想进一步激发开源大模型在行业领域提升性能是棘手问题。该问题会涉及开源代码二次开发进行实验测试。基于此，本教程不同文字或理论介绍内容，而从源码解读其训练逻辑、权重保存、高效微调方法(LoRA)、断点续训方法、模型推理权重处理等方法。本教程所有内容完全依托huggingface源码与相关Demo验证来解读，助力大模型使用。

2024-10-25 11:17:20 157

原创大语言模型训练方式探索(基于llma3模型)

前面已经构建了大语言模型代码，本篇文章在此基础上探索不同模块功能，包含数据划分加工处理、评估方法、resume训练、torchrun训练、wandb使用方法以及deepspeed训练方法。

2024-10-25 11:12:38 787

原创大模型lora训练、权重保存、训练方法与完整训练代码(基于llama模型)

本篇文章介绍lora训练与huggingface训练源码构建，以及权重保存、数据格式与完整训练代码内容！

2024-10-25 11:03:23 513

原创 huggingface的lora与resume方法训练模型(以BERT为列)

解读lora与resume训练方法，使其少量参数训练与断点继续训练！

2024-10-25 10:54:00 846

原创大语言模型数据处理方法(基于llama模型)

本文使用huggingface方法来构建大模型数据加工方法！当然，这些方法也可以为其它大模型使用！。

2024-10-25 10:48:49 885

原创基于huggingface训练数据处理(load_dataset、map、data_loader等内容)

本篇文章基于huggingface框架来探索大语言模型数据处理方法。本文主要介绍如何基于huggingface训练模式构造自己的数据，类似与torch的dataset与dataloader方式来构建大语言模型数据。为后面大语言模型构建做理论支撑。提示：huggingface数据加载理论知识！

2024-10-25 10:32:25 722

原创大语言模型参数传递、model 构建与tokenizer构建（基于llama3模型）

上一篇说到huggingface的参数传递理论方法，本篇文章应用与llama3参数构建实践代码开发。并在参数传递基础上构建模型model与tokenizer。

2024-10-25 10:09:38 603

原创大模型如何使用huggingface库传参？配置参数、数据参数、模型参数配置？

在使用大模型时候，我们经常遇到参数传参问题，如何构建一个参数方法，即可使用默认参数，也可使用命令方式传参，是大模型构建的第一步。而大模型经常使用HfArgumentParser+parse_args_into_dataclasses+TrainingArguments等方式来实现。介于此，本篇文章纯粹解读huggingface参数传递与配置内容。

2024-10-25 09:53:10 347

原创 vscode如何debug环境配置？torchrun与deepspeed库又该如何配置？

本文验证完成基于vscode对deepspeed进行debug方法。特别的，该方式不仅适合deepspeed命令debug，也适用torchrun命令debug，更能延伸其它命令debug模式。本文内容分为三部分，第一部分介绍如何使用vscode传递参数debug；第二部分介绍如何使用deepspeed进行debug；第三部分介绍vscode通用命令方式进行debug。大模型扩充内容！点击这里。

2024-10-24 15:32:09 762

原创大语言模型数据类型与环境安装(llama3模型)

简单给出环境安装与数据类型及vscode运行配置，其中vscode运行配置是便于我们调试代码。

2024-10-24 15:15:04 510

原创基于depth anything模型理解深度估计运行机理

深度估计是一个很有效方法来预测目标距离或其它场景应用。特别地，近期相关深度估计大模型出现，使其目标深度估计更具有工程应用价值。本文将介绍一个通用的深度估计模型depth anything来实现现实世界目标的深度估计，而模型运行较为简单，关键在于如何将预测深度图转为真实深度估计图。介于此，本文从工程角度做出剖析与分享。当然，有错误之处请指出。

2024-10-11 20:30:00 1700

原创深度图可视化显示(kitti)

kitti数据是一个通用数据，有关kitti的深度图像内容我已有博客介绍。这里，我将给出一个工具，用于显示深度值对应像素坐标再图像上，也给出深度值可视化显示内容。

2024-09-20 21:00:00 1206

原创 windows系统visual studio编译器配置opencv库

windows10的opencv的安装opencv配置：包含目录：D:\SOFT\InstallPackage\eigen-3.4.0E:\SOFT\soft_other\opencv4.2\build\includeE:\SOFT\soft_other\opencv4.2\build\include\opencv2库目录：E:\SOFT\soft_other\opencv4.2\build\...

2024-09-14 13:56:00 484

C Primer plus 第五版（电子版带书签）

2025-03-10

生成式 AI商业落地白皮书

2025-03-06

20250219-2025具身智能行业发展研究报告.pdf

这是具身智能行业发展研究报告，来源北京甲子光年智库机构。主要内容包含具身智能的发展背景、具身智能的发展现状、应用场景和代表厂商和发展挑战与技术趋势。

2025-02-21

3d检测-点云检测-深度估计+世界、相机、像素坐标相互转换+刚性运动+深度值转点云坐标、点云坐标转像素坐标、标签值转像素坐标方法

这是一个kitti数据集实验方法，包含深度值转点云坐标、点云坐标转像素坐标、标签值转像素坐标内容。 data：kitti数据格式内容 depth2velo.py：kitti深度图转相机坐标再到kitti格式的点云坐标，可用于深度估计方法 label_bbox2pixel_img.py：kitti的label如何转到像素坐标，可用于3d检测 lidar2pixel_img.py：kitti的点云坐标转到像素坐标逻辑，可用于自动驾驶 out_dir: python代码实现后保存结果内容 object+depth model: 是我用一个目标检测模型与深度估计模型结合生成展示效果，以及坐标转换结果那么，本资源是一个kitti数据集探索内容，涉及标签label的3d如何转到像素坐标方法与逻辑，涉及kitti深度图如何转到相机坐标再到点云坐标(世界坐标)，涉及kitti点云坐标转到像素坐标。你看明白这个代码，你明白如何将深度估计模型转为相机坐标再转到任意世界坐标。当然，我们选择kitti数据，绝大多数有关3d模型都会使用，这样理解数据就更好理解模型。

2024-09-11

大语言模型+llama3+代码+学习可运行llama3代码

本项目基于Meta最新发布的新一代开源大模型Llama-3开发，是Chinese-LLaMA-Alpaca开源大模型相关系列项目（一期、二期）的第三期。本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练，并且使用精选指令数据进行精调，进一步提升了中文基础语义和指令理解能力，相比二代相关模型获得了显著性能提升。我已将如何训练+推理以及vscode配置等内容放入文件夹，你可直接下载按照要求执行，以便进一步解读与学习。当然，我也会在博客解读代码细节，以此帮助大家对大语言模型理解。

2024-07-25

多模态大模型+llava教程token+input-ids-labels+模型输入格式

本篇文章直接介绍llava模型数据加工部分，整体结构说明llava多模态模型输入数据格式，其中包含input_ids/labels/attention_mask与image格式，并给出对应代码位置与整个数据加工流程。最重要，通过debug给出数据解释与代码解读，也通过一个真实数据给出模型输入格式说明。当你阅读完此篇文章，绝对透彻理解llava数据加工过程与内容。上一篇文章给出了数据处理大轮廓，本篇文章将解读LazySupervisedDataset类的__getitem__函数内容。而该文件用于理解input_ids与labels如何生成。

2024-06-14

目标检测指标map+map计算代码+map计算列子(包含gt与pred输入)

“史上最全AP、mAP详解与代码实现”文章（[这里](http://t.csdnimg.cn/VMSSn)）已经介绍了map相关原理，且给出相应简单代码实现AP方法。然将AP计算融入模型求解AP结果，可能是一个较为复杂的工程量。恰好，我也有一些这样的需求，我是想计算相关DETR的map指标。我将构造一个即插即用计算map的相关模块代码，使用者只需赋值我的模块，即可使用。同时，为了更好快速使用，我将基于通用模型yolo为基准介绍map通用模块(你有疑问，yolo已有val.py可测试map，但yolo无法测出small、medium、large等相关AP或AP0.75等结果)。本文将直接介绍计算map核心代码简单列子，在此基础上介绍整个即插即用map计算模块使用方法与代码解读。该资源便是列子内容，可参考“史上最全AP、mAP通用代码实现(即插即用-基于yolo模型)”博客。

2023-12-24

RT-DETR+auto-train-detect+RTDETR-run

本文章基于客户一键训练与测试需求，我使用u公司的yolov8集成的RTDETR模型改成较为保姆级的``一键``操作的训练/预测方式，也特别适合新手或想偷懒转换数据格式的朋友们。本文一键体现数据格式为图像与xml，调用train.sh与detect.sh可完成模型的训练与预测。而为完成该操作，模型内嵌入xml转RTDETR的txt格式、自动分配训练/验证集、自动切换环境等内容。接下来，我将介绍如何操作，并附修改源码。本文一个目的，傻瓜式训练与预测，通过sh脚本实现3个任务， ①、虚拟环境自动切换 ②、数据格式自动转换，输入为图像文件与对应xml文件自动完成rtdetr模型训练与预测数据格式 ③、模型自动训练与预测，且只需执行sh train.sh或 sh detect.sh即可实现

2023-12-21

目标检测+RTDETR+训练与预测代码

使用Ultralytics公司的yolov8版本集成RTDETR模型，可用于训练与预测。本文件包含如何训练的命令与预测py代码及权重和数据集，可直接执行进行训练或预测。

2023-12-19

vscode-main+deepspeed进行debug+vscode配置deepspeed环境debug代码

最近在研究deepspeed相关内容，但使用命令方式无法单步调式调用代码的问题，若直接离线看代码，在一定程度上降低效率。同时，使用deepspeed方式debug代码内容较少。为此，我特意在少有信息中和代码实验验证完成基于vscode对deepspeed进行debug方法。特别的，该方式不仅适合deepspeed命令debug，也适用torchrun命令debug，更能延伸其它命令debug模式。本文内容分为三部分，第一部分介绍如何使用vscode传递参数debug；第二部分介绍如何使用deepspeed进行debug；第三部分介绍vscode通用命令方式进行debug。原文解说：https://editor.youkuaiyun.com/md?not_checkout=1&spm=1001.2014.3001.9614&articleId=134992123

2023-12-14

CV-gronding-dino,tag2text,ram,ram++-原文重点翻译-论文解读

随着SAM模型分割一切大火之后，又有RAM模型识别一切，RAM模型由来可有三篇模型构成，TAG2TEXT为首篇将tag引入VL模型中，由tagging、generation、alignment分支构成，随后才是RAM模型，主要借助CLIP模型辅助与annotation处理trick，由tagging、generation分支构成，最后才是RAM++模型，该模型引入semantic concepts到图像tagging训练框架，RAM++模型能够利用图像-标签-文本三者之间的关系，整合image-text alignment 和 image-tagging 到一个统一的交互框架里。作者也介绍将tag引入Grounding DINO模型，可实现目标定位。为此，本文将介绍这四篇文章。

2023-12-09

CogVLM论文+翻译

尽管部分博客已对CogVLM论文有解读，但总归是夹杂自己理解内容，也不好快速与原文对照。介于此，我在原文重要部分添加了个人翻译笔记，为更多想快速阅读朋友很好提供参照，若有喜欢可自行下载使用。

2023-11-28

文本提取+文本关键词标注+利用词库匹配文本关键词

这个一个传统简单python脚本，用于处理基于已有词库匹配文本中存在的关键词查找。

2023-11-15

NLP(BERT)+vocab.txt+中/英文转token+内容转模型识别符号

NLP语言模型、多模态模型等的中/英文编码字符map表，此文件来源bert模型内容，可供读者查看其内容。

2023-10-13

yolov5+auto-train-detect+yolov5-run

本文章基于客户一键训练与测试需求，我将yolov5模型改成较为保姆级的``一键``操作的训练/预测方式，也特别适合新手或想偷懒转换数据格式的朋友们。本文一键体现只需图像文件与xml文件，调用train.sh与detect.sh可完成模型的训练与预测。而为完成该操作，模型内嵌入xml转yolov5的txt格式、自动分配训练/验证集、自动切换环境等内容。接下来，我将介绍如何操作，并附修改源码。

2023-09-14

yolov5部署+onnx-cpp-tensorrt+onnx的yolov5部署源码

本资源属于我的cuda专栏教程是C++版本基于onnx的yolov5部署代码。而我教程介绍如下：随着人工智能的发展与人才的内卷，很多企业已将深度学习算法的C++部署能力作为基本技能之一。面对诸多arm相关且资源有限的设备，往往想更好的提速，满足更高时效性，必将更多类似矩阵相关运算交给CUDA处理。同时，面对市场诸多教程与诸多博客岑子不起的教程或高昂教程费用，使读者(特别是小白)容易迷糊，无法快速入手CUDA编程，实现工程化。因此，我将结合我的工程实战经验，我写了CUDA系列教程专栏，帮助读者(或小白)实现CUDA工程化，掌握CUDA编程能力。学习我的教程专栏，你将绝对能实现CUDA工程化，完全从环境安装到CUDA核函数编程，从核函数到使用相关内存优化，从内存优化到深度学习算子开发(如：nms)，从算子优化到模型(以yolo系列为基准)部署。最重要的是，我的教程将简单明了直切主题，CUDA理论与实战实例应用，并附相关代码，可直接上手实战。我的想法是掌握必要CUDA相关理论，去除非必须繁杂理论，实现CUDA算法应用开发，待进一步提高，将进一步理解更高深理论。

2023-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人