- 博客(444)
- 收藏
- 关注

原创 协程的学习二:C风格写的协程(以云凤协程为例),顺便记录ucontex使用
文章目录一、测试代码讲解1)main函数主流程2)main测试代码示例二、协程头文件coroutine.h1)代码作用讲解①协程执行函数②创建协程调度器③关闭协程调度器④创建协程⑤协程堆栈恢复⑥判断协程yield出去后是否准备resume回来⑦coroutine_running(struct schedule *)不知道什么作用⑧协程让出CPU占用(yield)2)代码实体三、协程函数实现文件coroutine.c0)备注背景知识1)错误码及结构体①struct args②struct coroutine③
2021-11-20 20:50:56
1593

原创 C/C++遇到的坑(持续更新,每日更新两篇,11/24)
文章目录1.基础问题1.1 运算符优先级2.编译问题3.库函数问题4.文件处理问题5.类和对象问题6.内存使用问题7.多线程问题8.性能问题9.其他问题9.1 中文截断成乱码问题摘录自《从缺陷中学习C/C++》1.基础问题1.1 运算符优先级//to get 2*n+1int func(int n){ return n<<1 + 1;}后果上述代码中的函数func本意是期望计算2n+1,但程序实际运行结果是4n。分析这段代码使用左移1位来代替乘以2的运
2021-09-09 01:07:42
501

原创 lua的坑(持续更新,每日更新两篇,9/15),更新到17个
1.把数值转成16进制的格式2.去掉商里的小数3.string.format()保留三位小数4.向上/下取整,四舍五入5.string字符串拆成表6.敏感词过滤7.同名传参/同名字段相关bug1)2个同名传参, 第1个传参无效2)2个同名字段, 第2个字段无效8.表作为传参: 浅拷贝的相关bug1)表作为参数传递时, 是浅拷贝,原表也会改变2)但是, 改变arg表自身, tab不变9.windwos安装lua10.通配符,正则表达式11.用正则实现trim()12.字符串截取s
2021-08-27 00:54:53
832
原创 基于optuna的Transformers模型自动调参
①安装optuna②修改model初始化函数③新增函数结果输出可以看到随着不断迭代,eval_f1相对于最初点0.92已经涨了不少最终结果还可以修改一下hp_space,指定优化器和参数范围代码#5、create model 创建模型#6、create evaluation function 创建评估函数return acc#7、create training args 创建训练参数output_dir="./checkpoint", #输出文件目录。
2025-06-04 03:11:11
290
原创 大模型分布式训练笔记(基于accelerate+deepspeed分布式训练解决方案)
背景介绍海量的训练数据给大模型训练带来了海量的计算需求,主要体现在变大的模型对显存的依赖逐渐加剧单卡场景如何解决显存问题1 )可训练参数量降低①参数高效微调--PEFT②prompt-Tuning、Prefix-Tuning、Lora等 2 )参数精度降低①低精度模型训练--Bitsandbytes②半精度、INT8、NF4分布式训练简介指的是系统或计算任务被分布到多个独立的节点或计算资源上进行处理,而不是集中在单个节点或计算机上。
2025-06-03 17:27:45
1544
原创 YOLOv8分割onnx实战及tensorRT部署(使用parser)
③过程:要活的检测到的物体最终掩码,首先需要从第一个输出output0中选择最佳概率,根据物体掩码索引去第二个坐标掩码匹配,将第二个输出output1的物体掩码的x和y插值到input输入图像上,如果输入尺寸为640x640像素,则需要将掩码放大到4倍以适应输入图像。参数二:116=4+80+32,4表示边界框坐标和宽度长度,80表示各个类别的概率,32表示32个掩码原型的系数置信度coefficients。设置阈值t,大于这个阈值就删掉,小于这个阈值就保留,若t取值0.5,那只有b5被保留。
2025-05-30 21:02:14
303
原创 YOLOv8目标检测实战-(TensorRT原生API搭建网络和使用Parser搭建网络)
①Conv = conv+BN+SiLU,stride=2表示下采样,在backbone中有5个stride=2的conv模块,2的5次方是32,640/32=20,所以就有了20x20的特征图。上采样:上采样将深层特征图的分辨率提高(如从20×20上采样到40×40),与浅层特征拼接,保留细节信息的同时增强语义表达能力。②Bottleneck有add为true和false两种,⑤因为有两种上采样的存在,所以输出有三种维度的特征图。③C3-n,n表示有n个Bottleneck。④SPFF:改进的空间计算。
2025-05-30 20:56:12
779
原创 Triton推理服务器部署YOLOv8(onnxruntime后端和TensorRT后端)
设计思想和特点1、支持多种机器学习框架2、支持多种部署场景3、高性能推理4、灵活的模型管理5、可扩展性6、强大的客户端支持。
2025-05-29 13:00:05
575
原创 YOLOv8模型剪枝笔记(DepGraph和Network Slimming网络瘦身)
①准备基础环境②安装PyTorch③克隆和安装YOLOv8①准备数据集②修改配置文件
2025-05-22 19:41:05
283
原创 数据集制作笔记
大多数人设计到的都属于监督微调,监督微调基本是对话、指令、文本分类、领域适配等领域适配微调数据集数据格式举例应用领域:医学领域适配数据集举例:领域适配数据集来源:文本分类数据集:举例:文本分类应用:文本分类数据集举例:
2025-05-19 04:53:29
337
原创 用DeepSeek-R1蒸馏模型原理和流程(黑盒蒸馏)
微调和蒸馏区别①代码code②数学问题解答math③科学问题解答science④日常问题解答puzzle。
2025-05-12 04:41:20
262
原创 大模型知识蒸馏(Qwen2.5系列模型KL散度蒸馏)
结合公式来看,当p增大时,为了使得kl散度小,则q也需要增大,但是当p趋于0时,无论q取任何值,kl散度都比较小,因为此时p(x)log((p(x)/q(x)))的大小主要受p(x)控制,这样起不到优化q分布的效果,可能会使q分布高估p分布中概率低的位置。p为教师模型的概率分布,q为学生模型的概率分布,当p趋于零时,为了使kl散度小,q也需趋于0。将待压缩的模型作为教师模型,将体积更小的模型作为学生模型,让学生模型在教师模型的监督下进行优化,将学生模型学习到教师模型的概率分布,然后通过。
2025-05-11 21:11:23
950
原创 MCP理解笔记及deepseek使用MCP案例介绍、Cursor创建MCP介绍、python制作MCP工具
全称模型上下文协议来源由Claude母公司Anthropic于24年底开源发布简介AI大模型的标准化工具箱,大模型可以利用这些工具与外界互动。
2025-04-17 21:57:35
400
原创 stable diffusion 量化加速点
①用代码将onnx转为trt文件,或用下面指令转成trt文件。基本只看GPU计算时间的最低耗时。②转成trt文件后,再用来测速。1)静态shape测速。2)动态shape测速。
2025-04-06 21:30:42
455
原创 向量数据库简单对比
简单好部署好用(很多应用都使用Redis作为缓存中间件的数据库,这也就意味着使用Redis作为向量数据库,不需要额外的技术架构调整。:Elasticsearch是为全文搜索目的而设计的,虽然支持向量搜索,但对于涉及百万级向量搜索及以上的数据,性能会受到影响。从开发人员的角度来看,依赖外部的第三方托管服务的危险,无法完全控制数据库的设置和运行方式。,不需要用户了解任何有关向量化或向量索引的知识,前期导入的时候是非常方便快捷的。,从长远来看,依赖完全托管的闭源解决方案的影响可能是巨大的。
2025-02-10 19:54:19
924
原创 stable diffusion 量化学习笔记
简单学习介绍量化背景补充1)tensorFlow python版本其实是调用的TensorFlow C的接口2)libtorch其实是pytorch的C++版本3)cublas是实现矩阵相乘的功能4)cudnn主要实现dnn上的一些算子功能,例如卷积等5)不同NVIDIA显卡架构间不兼容,同代显卡基本是同架构优化策略1、低精度优化 :int8 int162、Kernel自动调优例如:cublas gemm多种实现:①不用shared memory;②小矩阵相乘;③使用额外显存的策略。
2025-01-11 16:55:03
816
2
原创 CUDA C编程权威指南习题解析
6.为执行核函数的每个线程提供了一个唯一的线程ID,通过内置变量threadIdx.x可以在内核中对线程进行访问。3.用cudaDeviceSynchronize 函数来替换hello.cu中的cudaDeviceReset函数,然后编译运行,看看会发生什么。4.参考1.3节,从编译器命令行中移除设备架构标志,然后按照下面的方式进行编译,看看会发生什么。2.从hello.cu中移除cudaDeviceReset函数,然后编译运行,看看会发生什么。(1)对于二维数据,沿x轴进行块划分。
2024-12-16 15:19:42
1040
原创 深度神经网络模型压缩学习笔记三:在线量化算法和工具、实现原理和细节
文章目录一、在线量化基础概念二、在线量化基本流程三、在线量化算法介绍四、在线量化工具介绍MQBench五、在线量化工具整体设计结构六、在线量化工具代码解读七、实践:MobileNet V2在线量化一、在线量化基础概念二、在线量化基本流程三、在线量化算法介绍四、在线量化工具介绍MQBench五、在线量化工具整体设计结构六、在线量化工具代码解读七、实践:MobileNet V2在线量化
2024-11-26 16:33:34
559
原创 深度神经网络模型压缩学习笔记二:离线量化算法和工具、实现原理和细节
文章目录一、离线量化基础概念二、离线量化难点三、离线量化算法介绍四、离线量化工具介绍五、离线量化工具整体设计结构六、离线量化工具代码解读七、实践:Dipoorlet量化MobileNet一、离线量化基础概念二、离线量化难点三、离线量化算法介绍四、离线量化工具介绍五、离线量化工具整体设计结构六、离线量化工具代码解读七、实践:Dipoorlet量化MobileNet
2024-11-26 16:28:53
639
原创 docker与大模型(口语化原理和实操讲解)
tag给镜像起别名,命令用于给本地的 Docker 镜像添加一个新的标签。标签是镜像的一个别名,可以用来标记镜像的不同版本或者用途。通过 docker tag 命令,用户可以将一个镜像标记为属于某个特定的仓库或者版本,这对于管理和分发 Docker 镜像非常有用。拉取过来后,用docker images看本地镜像,可以看到本地已经有这个rancher的hello-world了。②repo:仓库,存储很多人传的不同images镜像,类似于github一样。PORTS:容器暴露的端口和映射到主机的端口。
2024-11-15 16:38:11
985
原创 CUDA与TensorRT学习六:模型部署-CNN、模型部署-YOLOv8检测器、部署BEVFusion模型
## 一、模型部署-CNN## 二、模型部署-YOLOv8检测器## 三、部署BEVFusion模型
2024-10-05 03:17:53
886
原创 CUDA与TensorRT学习五:TensorRT的C++或python API的介绍
## 一、MINISUT-model-build-infer## 二、build-model## 三、infer-model## 四、TensorRT-network-structure## 五、build-model-from-scratch## 六、build-trt-module## 七、custom-trt-module## 八、plugin-unit-test(python+cpp)
2024-10-05 03:15:43
670
2
原创 CUDA与TensorRT学习四:模型部署基础知识、模型部署的几大误区、模型量化、模型剪枝、层融合
## 一、模型部署基础知识## 二、模型部署的几大误区## 三、模型量化## 四、模型剪枝## 五、层融合
2024-10-05 03:12:11
690
原创 pytorch学习笔记二:用pytorch神经网络模型做气温预测、分类任务构建和分类网络构建、卷积神经网络原理介绍
与之前的回归模型的区别①得到的结果是不同的②使用的损失函数也是不同的学习目的:Mnist分类任务①网络基本构建与训练方法,常用函数解析②torch.nn.functional模块③nn.Module模块①有可学习的参数用Module:卷积层、②其他情况用functional:激活函数、损失函数(分类任务一般用交叉相乘作为损失函数:cross_entropy)定义函数定义参数bs:也就是batch_size实际训练流程,并打印结果。
2024-09-23 00:51:58
1551
原创 pytorch学习笔记一:作用、安装和基本使用方法、自动求导机制、自制线性回归模型、常见tensor格式、hub模块介绍
x或x词向量:用多维的向量数值表达一个词的意思介绍调用别人训练好的模型举例①比如说选择对象识别的模型②点开实验环境③会有怎么使用的介绍有很多模型使用说明。
2024-09-20 00:47:54
968
原创 CUDA与TensorRT学习三:TensorR模块、导出onnx并分析、刨析onnx的proto结构、onnx注册算子、不同方式导出onnx、trtexec分析log
文章目录一、TensorRT概述二、TensorRT应用场景三、TensorRT模块四、导出并分析ONNX五、剖析ONNX架构并理解Protobuf六、ONNX注册算子的方法七、快速分析开源代码并导出ONNX八、使用trtexec九、trtexec log分析一、TensorRT概述二、TensorRT应用场景三、TensorRT模块四、导出并分析ONNX五、剖析ONNX架构并理解Protobuf六、ONNX注册算子的方法七、快速分析开源代码并导出ONNX八、使用trtexec九、trte
2024-09-05 00:09:18
411
原创 CUDA与TensorRT学习二:CUDA硬件信息获取、Nsight system和Nsight compute、共享内存和bank conflict,预处理后处理、stream和event、双线性插
一、理解CUDA的grid和Block1)第一个cuda项目二、理解.cu和.cpp的相互引用及Makefile三、利用CUDA矩阵乘法(matmul)计算、Error Handle 及硬件信息获取1)矩阵乘法2)Error Handle3)硬件信息获取四、安装Nsight system and compute五、共享内存、Bank Conflict原因和解决方法、TRT用Cuda进行预处理/后处理来加速、Stream 与Event(用Cuda写流提高并发性)六、双线性插值与仿射变换
2024-09-03 00:36:50
1123
原创 CUDA与TensorRT学习一:并行处理与GPU体系架构
## 一、并行处理简介## 二、GPU并行处理## 三、环境搭建## 四、CUDA cuDNN TRT版本选择## 五、常用软件安装## 六、服务器的环境配置## 七、编辑器的环境配置
2024-08-31 18:37:01
590
原创 不务正业篇一:AI模型写小说(08/08)
解决办法:每次加载prompt,都会预先读取本地记录前倾提要的总结文档,额外剧情用embedding切分存到向量数据库。解决办法:提示词加入当前社会的流行词语,针对情节增加对应prompt尽力。解决办法:打算专门拿特定领域的,比如武侠、玄幻等专门微调一个。6、kimi:综合能力不如45,但是长文本功能不错,适合。③缺点三:内容老套和慢热,缺乏对当代社会潮流的洞察。5、通义千问:理解能力和文笔都不错,适合。4、文心4:中文能力和文笔都非常出色,,适合需要丰富文化背景的故事。1、GPT4:推理逻辑强,
2024-08-08 18:54:33
894
原创 大模型面试总结
的时间(推理的时间) -》降低模型的推理延迟。吞吐率 = 处理的请求数/处理需求的时间。-》增大模型并行处理请求的能力。②增强大模型的并行处理能力。②分子是一次处理的条数(①降低模型的推理延迟。
2024-07-28 11:09:13
896
原创 大模型学习笔记十四:Agent模型微调
1、Agent Tuning 的主要动机是训练大模型的 Agent 能力,尤其是希望通过训练让小参数量模型也能具备特定业务场景的 Agent 能力;2、Agent Prompt 可以有不同的描述方式,通常包括等部分;3、可以采用自动评估和人工评估相结合的方法来评估 Agent 能力;4、采用 Meta-Agent 方法可以构建多样性的 Agent Prompt 模板,再结合Query、Tools的多样化,可以训练出能力更加泛化的模型。
2024-07-24 22:42:04
2532
原创 大模型额外篇章三:vercel搭建openai中转服务器
这里需要将部署格式改成Next.js,另外需要将维基百科修改为openai的官网,这样才能转发到openai。②因为业务在国内,所以大部分业务代码在国内的服务器,国内服务器调用代理服务器。复制以下代码,去 cloudflare 建立一个 worker 即可。①不建议为了调用openai把业务代码放国外,多少会有延迟。配置nginx的服务器(改写nginx.conf )①fork一份github上的要部署的代理服务器代码。②vercel添加新项目,选择导入自己库内的项目。
2024-07-23 18:20:17
915
原创 大模型学习笔记十三:工作流
②直接进行CoT控制(尤其是用自然语言表达CoT,也就是思维链)会输出思考过程,但我们不希望用户看到这个过程。③ 随着工作进展出现的新信息,对任务时序、编排有依赖的信息,不一定能在单次请求中一次性完成输入。① 上下文窗口长度限制、输出长度限制(早期的LangChain长文本Summarize)②能够将模型单次请求调用视作一个工作节点。③能够灵活将其他代码逻辑也写入工作节点。⑤能够在工作节点之间进行数据传递。①将工作任务拆分成多个工作节点。④能够对工作节点进行任务编排。
2024-07-23 00:43:57
2216
原创 大模型学习笔记十二:AI产品部署
①定义:是一个快速且容易使用的库,用于大语言模型LLM的推理和服务1)速度快,每个请求需要3个并行输出完成时的服务器吞吐量,比huggingface transformer的吞吐量高出8.5到15倍,比huggingface文本生成推理TGI的吞吐量高3.3到3.5倍2)优化的cuda内核3)与huggingface模型无缝集成4)支持张量并行处理,实现分布式推理5)支持滚式输出。
2024-07-20 22:51:10
1143
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人