- 博客(12)
- 收藏
- 关注
原创 3D星空粒子手势控制demo
控制灵敏度: <span id="sensitivityValue">1.0</span></label><label>星空密度: <span id="densityValue">3000</span></label><label>平滑度: <span id="smoothingValue">0.7</span></label><label>粒子大小: <span id="sizeValue">1.5</span>
2025-12-01 16:03:23
651
转载 端云协同模型推理加速
推理延迟优化、端云协同、链路压缩、动态调度、异步推理、边缘预处理、并发调度、响应时间控制、模型卸载、请求调优目录端云架构下推理延迟的主要来源分析优化目标定义与延迟评估指标体系设计边缘预处理加速机制:结构压缩与任务剪枝策略云端模型预热与并行推理路径设计联动链路压缩机制:数据结构瘦身与传输压缩方案请求动态调度策略:推理优先级与多级队列控制并发推理引擎调优:推理任务拆分与资源隔离策略模型加载优化机制:延迟感知型卸载与按需拉起实现。
2025-11-20 20:03:57
14
原创 vLLM性能分析
本文主要以一个LLM推理案例,分析如何通过和深入分析LLM推理的性能。写这篇文章的目的如下:笔者在测试vLLM(0.5.1)、TP = 2、 FP8、deepseek-6.7b(Llama结构)、batch size = 1时,性能不符合预期(TP = 2的性能小于TP = 1的性能),于是自己profile一下,记录整个性能分析的过程,希望能给需要的人作为一个参考;
2025-07-16 18:19:52
1228
原创 大模型实战:使用 LoRA(低阶适应)微调 LLM
一些微调的最佳实践包括使用强正则化、使用较小的学习率和少量的epochs。对于LLM,我们使用一种类似的方法,称为参数高效微调(PEFT)。其中一种流行的PEFT方法是低秩适应(LoRA),LoRA 是低秩适应 (Low-Rank Adaptation) 的缩写,其是一种用于微调深度学习模型的新技术,它在模型中添加了少量可训练参数模型,而原始模型参数保持冻结。LoRA 是用于训练定制 LLM 的最广泛使用、参数高效的微调技术之一。
2024-05-21 14:21:18
2426
原创 LLM大模型基础知识(一)
我们可以简单理解为,Anaconda是一个预装了很多我们用的到或用不到的第三方库的Python。在没有notebook之前,在IT领域是这样工作的:在普通的 Python shell 或者在IDE(集成开发环境)如Pycharm中写代码,然后在word中写文档来说明你的项目。由于本文需要用到PyTorch框架,所以还需要安装PyTorch(后期必不可少地会使用GPU,所以安装GPU版本的)。本节简单介绍一些必要的软件的安装与配置,由于不同机器软硬件配置不同,所以不详述,遇到问题请善用Google。
2024-05-17 18:00:29
1024
原创 联邦学习简介
微众定义:当多个数据拥有方(例如企业)F_i, i=1…N 想要联合他们各自的数据 D_i 训练机器学习模型时,传统做法是把数据整合到一方并利用数据 D={Di,i=1…N}进行训练并得到模型M_sum。然而,该方案由于其涉及到的隐私和数据安全等法律问题通常难以实施。为解决这一问题,我们提出联邦学习。
2024-05-17 17:31:04
813
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅