香菜烤面包-优快云博客

原创 NVIDIA Nsight 使用方法

是 NVIDIA 的是系统级别的性能分析工具，记录程序在运行过程中的各种信息，如每个任务的开始和结束时间、GPU的利用率、内存使用情况等内核级（Kernel）分析，针对 Kernel 函数的详细性能分析工具先用nsight system做全局的分析，如果需要看kernel内部的profile再用nsight compute。

2025-03-25 11:55:18 926

原创大语言模型参数指标详解

（这张图是AI生成的，看着还行～）

2025-03-25 11:47:04 1415

原创 Stable Diffusion 基础模型结构超级详解！

第一个只用来解决序列到序列问题的模型，最早被 Google 用来解决对于中英翻译而言，需要解决三个具体的问题：如何用数字表示中文和英文如何让神经网络理解语义如何让神经网络生成英文。

2025-03-25 11:34:54 978

原创思维链（cot）概述

思维链(CoT)提示过程是一种最近开发的提示方法，它鼓励大语言模型解释其推理过程。下图显示了 few shot standard prompt（左)与链式思维提示过程（右）的比较。思维链的主要思想是通过向大语言模型展示一些少量的 exemplars，在样例中解释推理过程，大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。

2025-01-24 10:35:14 1268

LangChain Agent 是框架中驱动决策制定的实体。它可以访问一组工具，并可以根据用户的输入决定调用哪个工具。代理帮助构建复杂的应用程序，这些应用程序需要自适应和特定于上下文的响应。当存在取决于用户输入和其他因素的未知交互链时，它们特别有用。LangChain model 是一种抽象，表示框架中使用的不同类型的模型。LLM（大型语言模型）：这些模型将文本字符串作为输入并返回文本字符串作为输出。它们是许多语言模型应用程序的支柱。聊天模型( Chat Model)

2025-01-23 17:42:24 843

原创 LLM 大模型幻觉是什么？

在语言模型的背景下，幻觉指的是：看似流畅自然的表述，实则不符合事实或者是错误的。

2025-01-23 17:14:40 1109

原创 RAG（检索增强生成）技术概述

简单来说，。下图是一个检索增强 LLM 的简单示意图。传统的信息检索工具，比如 Google/Bing 这样的搜索引擎，只有检索能力 ()，现在 LLM 通过预训练过程，将海量数据和知识嵌入到其巨大的模型参数中，具有记忆能力 (从这个角度看，检索增强 LLM 处于中间，将 LLM 和传统的信息检索相结合，通过一些信息检索技术将相关信息加载到 LLM 的工作内存 () 中，即 LLM 的上下文窗口 ()，亦即 LLM 单次生成时能接受的最大文本输入。

2025-01-15 10:52:11 713

原创大语言模型LLM推理框架简单总结

首先来总结一下这些框架的特点，如下表所示：下面在内存容量为40GB的A100 GPU上，并且使用LLaMA-1 13b模型（因为列表中的所有库都支持它）进行七个部署框架的对比。

2025-01-14 14:18:07 1136

原创 LoRA、AdaLoRA与QLoRA技术原理

通过低秩分解来模拟参数的改变量，从而以极小的参数量来实现大模型的间接训练。

2025-01-14 11:34:25 911

原创分布式训练相关问题总结

点对点通信（Peer-to-Peer Communication）是一种网络通信模式，其中两个或多个计算机或设备之间直接进行通信，而不需要通过中央服务器或集中式系统。在点对点通信中，每个参与者都可以充当客户端和服务器，能够直接与其他节点通信、交换信息或共享资源。这种通信模式与传统的客户端-服务器模型不同，后者在网络中有一个中心服务器负责处理和转发所有请求和数据。而点对点通信模式中，参与者之间能够直接建立连接，相互传输信息或资源，使得网络更为分散和去中心化。

2025-01-10 17:54:14 645

原创大语言模型训练数据集格式

文本序列训练集、验证集和测试集（如CSV、JSON等）在这个示例中，（1代表正例，0代表负例）。每一行代表一个样本，第一列是输入数据，第二列是对应的标签。需要注意的是，具体的数据集格式可能会因任务类型、数据来源和使用的深度学习框架而有所不同。因此，在进行SFT训练时，建议根据具体任务和框架的要求来定义和处理数据集格式。

2025-01-10 17:26:44 1333

原创 NVLink vs NVSwitch

是由 NVIDIA 开发的一种，旨在实现 GPU 与 GPU 或 GPU 与 CPU 之间的高带宽、低延迟通信。它通过专用的硬件互连通道，比传统的 PCIe 通信速度更快。

2025-01-10 10:52:21 1624

原创 AttributeError: module ‘cv2.dnn‘ has no attribute ‘DictValue‘

新的报错：ImportError: libGL.so.1: cannot open shared object file: No such file or directory。解决方法：回退到4.5.5.64版本。

2024-12-04 11:39:04 592

原创 GGUF 大模型文件格式

原因在于GGUF采用了多种技术来保存大模型预训练结果，包括采用紧凑的二进制编码格式、优化的数据结构、内存映射等。注意：llama.cpp官方提供了。

2024-12-03 14:43:41 2489

原创 ComfyUI 基本原理

Webui vs ComfyuiComfyui 和 Webui 都是基于 Stable Diffusion 开发，实现文生图、图生图、ControlNet 控制、高清放大、局部重绘、Animatediff 生成视频等Webui 具有整合好的可视化界面，可以在浏览器上对各个参数进行点击、选择，学习成本低 Comfyui 是一个基于节点式的操作流程，没有固定的整合使用界面，一个个被线连接的节点，构成一个从输入到输出的完整工作流程相比于 Webui 只能按照预设好的方式，调节有限的参数来进行

2024-12-03 11:48:16 915

原创分布式推理框架 xDit

xDiT 是一个为大规模多 GPU 集群上的 Diffusion Transformers（DiTs）设计的可扩展推理引擎。它提供了一套高效的并行方法和 GPU 内核加速技术，以满足实时推理需求。

2024-12-03 11:31:27 1927

原创 bfloat16与float8、float16、float32的区别

bfloat16是一种浮点数数据类型，全称是。它是一种 16 位的浮点数格式，专为提高计算性能而设计，特别是在机器学习、深度学习中的加速训练过程中有广泛应用。与标准的 16 位浮点数（float16）相比，bfloat16在表示数值范围上做了一些权衡。它保留了和 32 位浮点数（float32）相同的指数范围，但精度较低。

2024-10-23 17:50:21 1748

原创简述公有云与私有云的区别

在公有云中，所有硬件、软件和其他支持性基础结构均为云提供商所拥有和管理。这样，私有云可使组织更加方便地自定义资源，从而满足特定的 IT 需求。私有云的使用对象通常为政府机构、金融机构以及其他具备业务关键性运营且希望对环境拥有更大控制权的中型到大型组织。但是，在私有云中，服务和基础结构始终在私有网络上进行维护，硬件和软件专供组织使用。多种不同的云计算模型、类型和服务已得到发展，可以满足组织快速变化的技术需求。部署云计算资源有三种不同的方法：公共云、私有云和混合云。私有云：自己搭建云平台，或者购买。

2024-10-14 11:21:55 356

原创 Kubernetes Pod详解

apiVersion: v1 #必选，版本号，例如v1kind: Pod 　 #必选，资源类型，例如 Podmetadata: 　 #必选，元数据name: string #必选，Pod名称namespace: string #Pod所属的命名空间,默认为"default"labels: 　　 #自定义标签列表spec: #必选，Pod中容器的详细定义containers: #必选，Pod中容器列表- name: string #必选，容器名称。

2024-10-08 15:09:10 1238

原创 Kubernetes 资源详解

Namespace 是 kubernetes 系统中的一种非常重要资源，它的主要作用是用来实现或者。默认情况下，kubernetes集群中的。但是在实际中，可能不想让两个Pod之间进行互相的访问，那此时就可以将两个Pod下。kubernetes通过将集群内部的资源分配到不同的Namespace中，可以形成逻辑上的"组"，以方便不同的组的资源进行隔离使用和管理。可以通过kubernetes的授权机制，将不同的namespace交给不同租户进行管理，这样就实现了多租户的资源隔离。

2024-09-27 11:01:09 1017

原创 Kubernetes 资源管理

在 kubernetes 中，所有的内容都抽象为资源，用户需要通过操作资源来管理 kubernetes。kubernetes 的本质上就是一个集群系统，用户可以在集群中部署各种服务，所谓的部署服务，其实就是在 kubernetes 集群中运行一个个的容器，并将指定的程序跑在容器中；kubernetes 的最小管理单元是pod而不是容器，所以只能将容器放在Pod中，而kubernetes 一般也不会直接管理 Pod，而是通过Pod 控制器来管理 Pod 的；

2024-09-26 19:59:38 741

原创 Llama 系列简介与 Llama3 预训练模型推理

Llama 系列简介与 Llama3 预训练模型推理

2024-09-26 17:21:44 2038

原创 LiblibAI 平台部署 Comfyui 工作流

Comfyui 和 Webui 都是基于 Stable Diffusion 开发，实现文生图、图生图、ControlNet 控制、高清放大、局部重绘、Animatediff 生成视频等。Comfyui 是一个基于节点式的操作流程，没有固定的整合使用界面（有很多在线平台，LiblibAI 也是其中之一）、条件（添加在加载器和K采样器之间，例如正向提示词和负向提示词，充当指挥官，设定生成条件）、采样、Latent、图像。Webui 具有整合好的可视化界面，可以在浏览器上对各个参数进行点击、选择，学习成本低。

2024-09-26 16:47:04 3603

原创 Podman 常用命令

Podman 常用命令

2024-09-26 16:34:17 977

原创编译器基础介绍

了解什么是编译器，为什么 AI 框架需要引入编译器？AI 框架和 AI 编译器之间什么关系？

2024-09-02 11:44:22 1332

原创 EfficientFormer 系列算法

主要介绍一种轻量化的 Transformer 结构，在获得高性能的同时，能够保持一定的推理速度。

2024-08-20 19:56:11 977

原创 MobileVit 系列算法

基于 ViT（Vision Transformer）架构的轻量级视觉模型系列介绍。

2024-08-20 14:35:22 838

原创 MobileFormer 网络简介

介绍一种新的网络-MobileFormer，它实现了 Transformer 全局特征与 CNN 局部特征的融合，在较低的成本内，创造一个高效的网络。

2024-08-19 10:36:13 1242 1

原创 Kubernetes 基础概念介绍

kubernetes，是一个基于容器技术的分布式架构方案，于2014年9月发布第一个版本，2015年7月发布第一个正式版本。kubernetes的本质是一组服务器集群，它可以在集群的每个节点上运行特定的程序，来对节点中的容器进行管理。自我修复：一旦某一个容器崩溃，能够在1秒中左右迅速启动新的容器弹性伸缩：可以根据需要，自动对集群中正在运行的容器数量进行调整服务发现：服务可以通过自动发现的形式找到它所依赖的服务负载均衡：如果一个服务起动了多个容器，能够自动实现请求的负载均衡版本回退。

2024-08-15 15:33:02 669

原创一文通晓 AI 框架

什么是 AI 算法？什么是神经网络？神经网络有什么用？为什么神经网络需要训练？什么是模型？AI 框架有什么用？AI 框架能解决什么问题？

2024-08-14 15:53:37 1319

原创大模型简介与发展历程

大模型简介与发展历程

2024-08-13 16:48:01 1543

原创算力相关的概念和常见问题

算力顾名思义是“计算能力”的缩写，指的是IT设备的计算能力。

2024-08-13 15:59:36 4621

原创 FastAPI 基础

FastAPI 是一个快速的Web框架，用于构建 API

2024-08-01 14:18:21 387

原创 QPS、内存、显存测试

高 QPS 表示系统有更强的并发处理能力，能够在单位时间内处理更多的请求，测试 QPS 可以了解系统在高负载下的性能。，它是衡量一个系统处理能力的重要指标，通常用于评估 web 服务器、数据库或其他服务在单位时间内能够处理的请求数量。（ Queries Per Second ）指。

2024-08-01 11:58:40 298

原创 Python TurboJPEG：ModuleNotFoundError、RuntimeError: Unable to locate turbojpeg library automatically

Python报错ModuleNotFoundError: No module named ‘turbojpeg‘和RuntimeError: Unable to locate turbojpeg library automatically. You may specify the turbojpeg library path manually.e.g. jpeg = TurboJPEG(lib_path)的解决方法记录

2024-07-19 14:14:22 500