自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

谢白羽

C/C++后端开发,目前从事游戏后端开发,数据转移存储等方面

  • 博客(449)
  • 收藏
  • 关注

原创 协程的学习二:C风格写的协程(以云凤协程为例),顺便记录ucontex使用

文章目录一、测试代码讲解1)main函数主流程2)main测试代码示例二、协程头文件coroutine.h1)代码作用讲解①协程执行函数②创建协程调度器③关闭协程调度器④创建协程⑤协程堆栈恢复⑥判断协程yield出去后是否准备resume回来⑦coroutine_running(struct schedule *)不知道什么作用⑧协程让出CPU占用(yield)2)代码实体三、协程函数实现文件coroutine.c0)备注背景知识1)错误码及结构体①struct args②struct coroutine③

2021-11-20 20:50:56 1611

原创 C/C++遇到的坑(持续更新,每日更新两篇,11/24)

文章目录1.基础问题1.1 运算符优先级2.编译问题3.库函数问题4.文件处理问题5.类和对象问题6.内存使用问题7.多线程问题8.性能问题9.其他问题9.1 中文截断成乱码问题摘录自《从缺陷中学习C/C++》1.基础问题1.1 运算符优先级//to get 2*n+1int func(int n){ return n<<1 + 1;}后果上述代码中的函数func本意是期望计算2n+1,但程序实际运行结果是4n。分析这段代码使用左移1位来代替乘以2的运

2021-09-09 01:07:42 503

原创 lua的坑(持续更新,每日更新两篇,9/15),更新到17个

1.把数值转成16进制的格式2.去掉商里的小数3.string.format()保留三位小数4.向上/下取整,四舍五入5.string字符串拆成表6.敏感词过滤7.同名传参/同名字段相关bug1)2个同名传参, 第1个传参无效2)2个同名字段, 第2个字段无效8.表作为传参: 浅拷贝的相关bug1)表作为参数传递时, 是浅拷贝,原表也会改变2)但是, 改变arg表自身, tab不变9.windwos安装lua10.通配符,正则表达式11.用正则实现trim()12.字符串截取s

2021-08-27 00:54:53 839

原创 tensorRT配合triton部署模型

拓扑关系:先conv,后relu。

2025-08-05 17:24:16 234

原创 大模型微调与部署课程笔记

①提示词样本示例②输入提示效果类型:zero-shot预训练的时候内容反应③思维链提示

2025-08-01 19:18:21 298

原创 解决VSCode中Github Copilot无法登陆的问题

点击vscode左下角的齿轮,输入proxy搜索。关闭所有窗口重启vscode即可。

2025-07-26 19:21:17 409

原创 GPT-SoVITS笔记

编码器encoder去除音色这一步,事实上目前没有完全去除音色的特征,只有去音色相对强的特征,这也是为什么sovit编码器最后选用ContentVec作为编码器的原因。填写输入音频目录和切分输出目录、填写要语音识别(音频转文本)的音频输入目录,分别作语音切分和语音识别=》将原来语音切分后进行语音识别成文本。③在重建的过程中模型将训练集音色学习进它的参数中,因此输入其他音色的语音进过编码后,VITS模型也能重建出学习过的音色语音。推理前需要上传目标音色的参考视频,并填写对应的文本和语种。

2025-07-20 01:02:18 914 1

原创 jenkins搭建笔记

jenkins

2025-07-14 17:16:03 755

原创 基于optuna的Transformers模型自动调参

①安装optuna②修改model初始化函数③新增函数结果输出可以看到随着不断迭代,eval_f1相对于最初点0.92已经涨了不少最终结果还可以修改一下hp_space,指定优化器和参数范围代码#5、create model 创建模型#6、create evaluation function 创建评估函数return acc#7、create training args 创建训练参数output_dir="./checkpoint", #输出文件目录。

2025-06-04 03:11:11 349

原创 大模型分布式训练笔记(基于accelerate+deepspeed分布式训练解决方案)

背景介绍海量的训练数据给大模型训练带来了海量的计算需求,主要体现在变大的模型对显存的依赖逐渐加剧单卡场景如何解决显存问题1 )可训练参数量降低①参数高效微调--PEFT②prompt-Tuning、Prefix-Tuning、Lora等 2 )参数精度降低①低精度模型训练--Bitsandbytes②半精度、INT8、NF4分布式训练简介指的是系统或计算任务被分布到多个独立的节点或计算资源上进行处理,而不是集中在单个节点或计算机上。

2025-06-03 17:27:45 1692

原创 YOLOv8分割onnx实战及tensorRT部署(使用parser)

③过程:要活的检测到的物体最终掩码,首先需要从第一个输出output0中选择最佳概率,根据物体掩码索引去第二个坐标掩码匹配,将第二个输出output1的物体掩码的x和y插值到input输入图像上,如果输入尺寸为640x640像素,则需要将掩码放大到4倍以适应输入图像。参数二:116=4+80+32,4表示边界框坐标和宽度长度,80表示各个类别的概率,32表示32个掩码原型的系数置信度coefficients。设置阈值t,大于这个阈值就删掉,小于这个阈值就保留,若t取值0.5,那只有b5被保留。

2025-05-30 21:02:14 381

原创 YOLOv8目标检测实战-(TensorRT原生API搭建网络和使用Parser搭建网络)

①Conv = conv+BN+SiLU,stride=2表示下采样,在backbone中有5个stride=2的conv模块,2的5次方是32,640/32=20,所以就有了20x20的特征图。上采样:上采样将深层特征图的分辨率提高(如从20×20上采样到40×40),与浅层特征拼接,保留细节信息的同时增强语义表达能力。②Bottleneck有add为true和false两种,⑤因为有两种上采样的存在,所以输出有三种维度的特征图。③C3-n,n表示有n个Bottleneck。④SPFF:改进的空间计算。

2025-05-30 20:56:12 874

原创 Triton推理服务器部署YOLOv8(onnxruntime后端和TensorRT后端)

设计思想和特点1、支持多种机器学习框架2、支持多种部署场景3、高性能推理4、灵活的模型管理5、可扩展性6、强大的客户端支持。

2025-05-29 13:00:05 704

原创 YOLOv8模型剪枝笔记(DepGraph和Network Slimming网络瘦身)

①准备基础环境②安装PyTorch③克隆和安装YOLOv8①准备数据集②修改配置文件

2025-05-22 19:41:05 449

原创 数据集制作笔记

大多数人设计到的都属于监督微调,监督微调基本是对话、指令、文本分类、领域适配等领域适配微调数据集数据格式举例应用领域:医学领域适配数据集举例:领域适配数据集来源:文本分类数据集:举例:文本分类应用:文本分类数据集举例:

2025-05-19 04:53:29 392

原创 用DeepSeek-R1蒸馏模型原理和流程(黑盒蒸馏)

微调和蒸馏区别①代码code②数学问题解答math③科学问题解答science④日常问题解答puzzle。

2025-05-12 04:41:20 349

原创 大模型知识蒸馏(Qwen2.5系列模型KL散度蒸馏)

结合公式来看,当p增大时,为了使得kl散度小,则q也需要增大,但是当p趋于0时,无论q取任何值,kl散度都比较小,因为此时p(x)log((p(x)/q(x)))的大小主要受p(x)控制,这样起不到优化q分布的效果,可能会使q分布高估p分布中概率低的位置。p为教师模型的概率分布,q为学生模型的概率分布,当p趋于零时,为了使kl散度小,q也需趋于0。将待压缩的模型作为教师模型,将体积更小的模型作为学生模型,让学生模型在教师模型的监督下进行优化,将学生模型学习到教师模型的概率分布,然后通过。

2025-05-11 21:11:23 1097

原创 大模型面试题总结

2025-04-18 03:23:47 247

原创 MCP理解笔记及deepseek使用MCP案例介绍、Cursor创建MCP介绍、python制作MCP工具

全称模型上下文协议来源由Claude母公司Anthropic于24年底开源发布简介AI大模型的标准化工具箱,大模型可以利用这些工具与外界互动。

2025-04-17 21:57:35 800

原创 stable diffusion 量化加速点

①用代码将onnx转为trt文件,或用下面指令转成trt文件。基本只看GPU计算时间的最低耗时。②转成trt文件后,再用来测速。1)静态shape测速。2)动态shape测速。

2025-04-06 21:30:42 505

原创 向量数据库简单对比

简单好部署好用(很多应用都使用Redis作为缓存中间件的数据库,这也就意味着使用Redis作为向量数据库,不需要额外的技术架构调整。:Elasticsearch是为全文搜索目的而设计的,虽然支持向量搜索,但对于涉及百万级向量搜索及以上的数据,性能会受到影响。从开发人员的角度来看,依赖外部的第三方托管服务的危险,无法完全控制数据库的设置和运行方式。,不需要用户了解任何有关向量化或向量索引的知识,前期导入的时候是非常方便快捷的。,从长远来看,依赖完全托管的闭源解决方案的影响可能是巨大的。

2025-02-10 19:54:19 1160

原创 stable diffusion 量化学习笔记

简单学习介绍量化背景补充1)tensorFlow python版本其实是调用的TensorFlow C的接口2)libtorch其实是pytorch的C++版本3)cublas是实现矩阵相乘的功能4)cudnn主要实现dnn上的一些算子功能,例如卷积等5)不同NVIDIA显卡架构间不兼容,同代显卡基本是同架构优化策略1、低精度优化 :int8 int162、Kernel自动调优例如:cublas gemm多种实现:①不用shared memory;②小矩阵相乘;③使用额外显存的策略。

2025-01-11 16:55:03 876 2

原创 NLP模型工程化部署

基于flask web框架实现restful接口。1)HTTP协议做RESTFul接口。

2024-12-30 11:52:03 726

原创 CUDA C编程权威指南习题解析

6.为执行核函数的每个线程提供了一个唯一的线程ID,通过内置变量threadIdx.x可以在内核中对线程进行访问。3.用cudaDeviceSynchronize 函数来替换hello.cu中的cudaDeviceReset函数,然后编译运行,看看会发生什么。4.参考1.3节,从编译器命令行中移除设备架构标志,然后按照下面的方式进行编译,看看会发生什么。2.从hello.cu中移除cudaDeviceReset函数,然后编译运行,看看会发生什么。(1)对于二维数据,沿x轴进行块划分。

2024-12-16 15:19:42 1088

原创 深度神经网络模型压缩学习笔记三:在线量化算法和工具、实现原理和细节

文章目录一、在线量化基础概念二、在线量化基本流程三、在线量化算法介绍四、在线量化工具介绍MQBench五、在线量化工具整体设计结构六、在线量化工具代码解读七、实践:MobileNet V2在线量化一、在线量化基础概念二、在线量化基本流程三、在线量化算法介绍四、在线量化工具介绍MQBench五、在线量化工具整体设计结构六、在线量化工具代码解读七、实践:MobileNet V2在线量化

2024-11-26 16:33:34 598

原创 深度神经网络模型压缩学习笔记二:离线量化算法和工具、实现原理和细节

文章目录一、离线量化基础概念二、离线量化难点三、离线量化算法介绍四、离线量化工具介绍五、离线量化工具整体设计结构六、离线量化工具代码解读七、实践:Dipoorlet量化MobileNet一、离线量化基础概念二、离线量化难点三、离线量化算法介绍四、离线量化工具介绍五、离线量化工具整体设计结构六、离线量化工具代码解读七、实践:Dipoorlet量化MobileNet

2024-11-26 16:28:53 672

原创 深度神经网络模型压缩学习笔记一:模型压缩概述

额外的需求。

2024-11-26 16:24:18 697 1

原创 CUDA补充笔记

【代码】CUDA补充笔记。

2024-11-22 17:27:03 358

原创 docker与大模型(口语化原理和实操讲解)

tag给镜像起别名,命令用于给本地的 Docker 镜像添加一个新的标签。标签是镜像的一个别名,可以用来标记镜像的不同版本或者用途。通过 docker tag 命令,用户可以将一个镜像标记为属于某个特定的仓库或者版本,这对于管理和分发 Docker 镜像非常有用。拉取过来后,用docker images看本地镜像,可以看到本地已经有这个rancher的hello-world了。②repo:仓库,存储很多人传的不同images镜像,类似于github一样。PORTS:容器暴露的端口和映射到主机的端口。

2024-11-15 16:38:11 1024

原创 CUDA与TensorRT学习六:模型部署-CNN、模型部署-YOLOv8检测器、部署BEVFusion模型

## 一、模型部署-CNN## 二、模型部署-YOLOv8检测器## 三、部署BEVFusion模型

2024-10-05 03:17:53 955

原创 CUDA与TensorRT学习五:TensorRT的C++或python API的介绍

## 一、MINISUT-model-build-infer## 二、build-model## 三、infer-model## 四、TensorRT-network-structure## 五、build-model-from-scratch## 六、build-trt-module## 七、custom-trt-module## 八、plugin-unit-test(python+cpp)

2024-10-05 03:15:43 718 2

原创 CUDA与TensorRT学习四:模型部署基础知识、模型部署的几大误区、模型量化、模型剪枝、层融合

## 一、模型部署基础知识## 二、模型部署的几大误区## 三、模型量化## 四、模型剪枝## 五、层融合

2024-10-05 03:12:11 746

原创 pytorch学习笔记二:用pytorch神经网络模型做气温预测、分类任务构建和分类网络构建、卷积神经网络原理介绍

与之前的回归模型的区别①得到的结果是不同的②使用的损失函数也是不同的学习目的:Mnist分类任务①网络基本构建与训练方法,常用函数解析②torch.nn.functional模块③nn.Module模块①有可学习的参数用Module:卷积层、②其他情况用functional:激活函数、损失函数(分类任务一般用交叉相乘作为损失函数:cross_entropy)定义函数定义参数bs:也就是batch_size实际训练流程,并打印结果。

2024-09-23 00:51:58 1579

原创 pytorch学习笔记一:作用、安装和基本使用方法、自动求导机制、自制线性回归模型、常见tensor格式、hub模块介绍

x或x词向量:用多维的向量数值表达一个词的意思介绍调用别人训练好的模型举例①比如说选择对象识别的模型②点开实验环境③会有怎么使用的介绍有很多模型使用说明。

2024-09-20 00:47:54 977

原创 CUDA与TensorRT学习三:TensorR模块、导出onnx并分析、刨析onnx的proto结构、onnx注册算子、不同方式导出onnx、trtexec分析log

文章目录一、TensorRT概述二、TensorRT应用场景三、TensorRT模块四、导出并分析ONNX五、剖析ONNX架构并理解Protobuf六、ONNX注册算子的方法七、快速分析开源代码并导出ONNX八、使用trtexec九、trtexec log分析一、TensorRT概述二、TensorRT应用场景三、TensorRT模块四、导出并分析ONNX五、剖析ONNX架构并理解Protobuf六、ONNX注册算子的方法七、快速分析开源代码并导出ONNX八、使用trtexec九、trte

2024-09-05 00:09:18 455

原创 CUDA与TensorRT学习二:CUDA硬件信息获取、Nsight system和Nsight compute、共享内存和bank conflict,预处理后处理、stream和event、双线性插

一、理解CUDA的grid和Block1)第一个cuda项目二、理解.cu和.cpp的相互引用及Makefile三、利用CUDA矩阵乘法(matmul)计算、Error Handle 及硬件信息获取1)矩阵乘法2)Error Handle3)硬件信息获取四、安装Nsight system and compute五、共享内存、Bank Conflict原因和解决方法、TRT用Cuda进行预处理/后处理来加速、Stream 与Event(用Cuda写流提高并发性)六、双线性插值与仿射变换

2024-09-03 00:36:50 1140

原创 CUDA与TensorRT学习一:并行处理与GPU体系架构

## 一、并行处理简介## 二、GPU并行处理## 三、环境搭建## 四、CUDA cuDNN TRT版本选择## 五、常用软件安装## 六、服务器的环境配置## 七、编辑器的环境配置

2024-08-31 18:37:01 613

原创 AI大模型预先学习笔记十四:向量数据库chromadb

【代码】AI大模型预先学习笔记十四:向量数据库chromadb。

2024-08-12 02:25:42 985

原创 游戏思考31:触发器一些代码思考

作为一个对象,这个对象来定义条件,当条件被智能体满足时,会产生一个动作。

2024-08-09 19:10:46 544

原创 不务正业篇一:AI模型写小说(08/08)

解决办法:每次加载prompt,都会预先读取本地记录前倾提要的总结文档,额外剧情用embedding切分存到向量数据库。解决办法:提示词加入当前社会的流行词语,针对情节增加对应prompt尽力。解决办法:打算专门拿特定领域的,比如武侠、玄幻等专门微调一个。6、kimi:综合能力不如45,但是长文本功能不错,适合。③缺点三:内容老套和慢热,缺乏对当代社会潮流的洞察。5、通义千问:理解能力和文笔都不错,适合。4、文心4:中文能力和文笔都非常出色,,适合需要丰富文化背景的故事。1、GPT4:推理逻辑强,

2024-08-08 18:54:33 1022

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除