立桩一百万-优快云博客

原创 3D星空粒子手势控制demo

控制灵敏度: 1.0</label><label>星空密度: 3000</label><label>平滑度: 0.7</label><label>粒子大小: 1.5

2025-12-01 16:03:23 651

转载端云协同模型推理加速

推理延迟优化、端云协同、链路压缩、动态调度、异步推理、边缘预处理、并发调度、响应时间控制、模型卸载、请求调优目录端云架构下推理延迟的主要来源分析优化目标定义与延迟评估指标体系设计边缘预处理加速机制：结构压缩与任务剪枝策略云端模型预热与并行推理路径设计联动链路压缩机制：数据结构瘦身与传输压缩方案请求动态调度策略：推理优先级与多级队列控制并发推理引擎调优：推理任务拆分与资源隔离策略模型加载优化机制：延迟感知型卸载与按需拉起实现。

2025-11-20 20:03:57 14

原创 vLLM性能分析

本文主要以一个LLM推理案例，分析如何通过和深入分析LLM推理的性能。写这篇文章的目的如下：笔者在测试vLLM（0.5.1）、TP = 2、 FP8、deepseek-6.7b（Llama结构）、batch size = 1时，性能不符合预期（TP = 2的性能小于TP = 1的性能），于是自己profile一下，记录整个性能分析的过程，希望能给需要的人作为一个参考；

2025-07-16 18:19:52 1228

原创 vllm v1代码略读-总体框架

vllm v1代码梳理

2025-07-16 11:52:09 1176

原创 LLM大模型基础知识（四）

大模型技术路线图

2024-06-03 17:29:43 965

转载 LLM大模型基础知识（三）

自然语言处理基础

2024-05-27 18:16:43 78

原创大模型实战：使用 LoRA（低阶适应）微调 LLM

一些微调的最佳实践包括使用强正则化、使用较小的学习率和少量的epochs。对于LLM，我们使用一种类似的方法，称为参数高效微调（PEFT）。其中一种流行的PEFT方法是低秩适应（LoRA），LoRA 是低秩适应 (Low-Rank Adaptation) 的缩写，其是一种用于微调深度学习模型的新技术，它在模型中添加了少量可训练参数模型，而原始模型参数保持冻结。LoRA 是用于训练定制 LLM 的最广泛使用、参数高效的微调技术之一。

2024-05-21 14:21:18 2426

原创 LLM大模型基础知识（二）

tensor数据操作（pytorch）

2024-05-17 18:32:30 285

原创 LLM大模型基础知识（一）

我们可以简单理解为，Anaconda是一个预装了很多我们用的到或用不到的第三方库的Python。在没有notebook之前，在IT领域是这样工作的：在普通的 Python shell 或者在IDE（集成开发环境）如Pycharm中写代码，然后在word中写文档来说明你的项目。由于本文需要用到PyTorch框架，所以还需要安装PyTorch（后期必不可少地会使用GPU，所以安装GPU版本的）。本节简单介绍一些必要的软件的安装与配置，由于不同机器软硬件配置不同，所以不详述，遇到问题请善用Google。

2024-05-17 18:00:29 1024

weixin_44650393的博客