- 博客(28)
- 资源 (3)
- 收藏
- 关注
原创 leetcode日常刷题
题目要求k个一组进行反转,首先考虑到如果k为1,那就可以直接返回链表头,这种情况没必要翻转。如果只有一个节点或者head为空结点,直接返回head即可(一个节点翻转k次都是本身)其次对于链表题型,在表头head前增加一个哑节点能省去很多麻烦(省去头节点特殊处理)
2025-03-27 19:49:36
295
原创 SGLang的调度器策略(Policy)详解
以下内容通过SGLang0.4.3源码解析得到:sglang/python/sglang/srt/managers/schedule_policy.py。
2025-03-27 18:58:07
467
原创 使用GPTQ量化Llama-3-8B大模型
程序启动命令为:torchrun --nproc_per_node=4 torch-dist-gptq.py (指定每个节点使用 4 个 GPU,根据你的环境来修改)调整之后量化成功(可见降低了64.30%的显存空间),但是总共耗时了将近一小时的时间,因此我想使用四卡并行量化。描述:使用四张3090,分别进行单卡量化,多卡量化。并使用SGLang部署量化后的模型,使用GPTQ量化。量化完成,和单卡量化效果一致,但是缩短了量化时间,效率约提升了4.5倍!原来的模型精度为FP16,量化为4bit。
2025-03-13 21:54:38
554
原创 推理框架SGLang安装与调试
程序路径:examples/frontend_language/quick_start/local_example_chat.py。(安装torch2.5是为了和sglang对齐,cuda向后兼容)SGLang是一个用于大型语言模型和视觉语言模型的快速服务框架。
2025-03-12 15:24:39
393
1
原创 GGML源码阅读一(安装和调试)
GGML是一个用于机器学习的张量库,使用 C 和 C++编写,专注于 Transformer 推理,与 PyTorch 和 TensorFlow 等 ML 库类似。注意这里要配置构建类型。
2025-03-11 16:36:07
195
原创 大模型生成长度预测器
在Transformer大模型推理过程中,**KV缓存(Key-Value Cache)**的内存占用会随着序列长度呈线性增长。传统系统(如HuggingFace Transformers和FasterTransformer)要么频繁分配内存导致延迟,要么预分配最大长度造成资源浪费。,将吞吐量提升6.49倍。
2025-03-05 18:46:02
291
原创 四张GeForce RTX3090进行TP/PP/TP+PP推理实验
在单机多卡3090 通过PCIe 4.0互联场景,使用张量并行的端到端时延(e2e),GPU利用率等指标,相对PP,混合并行都有明显优势.
2025-02-21 15:48:11
179
原创 ubuntu源码方式安装TensorRT-LLM推理框架(超详细)
写在前面:建议先根据官方手册进行安装,遇到问题再看blog:TensorRT官方文档TensorRT-LLM 官方推荐使用 Docker 进行构建和运行ubuntu安装docker官方手册可以通过以下命令进行检测buildx是否可用(遇到的第一个安装错误,缺少buildx,重装docker解决了)获取 TensorRT-LLM 源码建立docker 镜像可以搜索自己的GPU的计算能力,替换以下命令行的数字(能加速构建)注:构建 TensorRT-LLM Docker 镜像需要约 63 GB
2025-02-19 17:16:54
660
原创 使用BERT模型微调二分类任务
工具包:torch 2.6.0+cu126 + transformers4.49.0.dev0。环境:ubuntu20.04 + GeForce RTX3090。复现时间:约 1 h。
2025-02-19 16:42:10
391
原创 解决服务器无法下载huggingFace模型数据集
参数禁用文件软链接,这样下载路径下所见即所得,详细解释请见上面提到的教程。是 Hugging Face 官方提供的命令行工具,自带完善的下载功能。替换其中的URL为https://hf-mirror.com即可。
2025-02-19 16:13:25
332
原创 对于xv6 riscv项目的详细解读,源码解析,代码学习
对操作系统经典项目xv6 riscv进行超详细解析,源码解读,项目分析,非常适合新手入门学习
2023-10-08 10:41:17
1454
5
实验三 多表查询.docx
2021-04-11
实验二 单表查询.docx
2021-04-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人