LLM大模型
文章平均质量分 95
hhf..
梦想是星辰大海
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Nano-vLLM 源码学习
Nano-vLLM是一个轻量级vLLM实现项目,具有高效推理、代码可读性强等特点。项目包含引擎管理和基础层实现两大核心模块:引擎目录(engine)通过LLMEngine、ModelRunner等组件构建推理流程,支持序列管理、块缓存优化和并行计算;基础层目录(layers)提供注意力机制、激活函数等基础组件,采用Triton优化KV缓存和Flash Attention加速计算。测试显示在RTX 4070笔记本上吞吐量优于原版vLLM,适用于需要高效离线推理的场景。项目结构清晰,包含bench测试、示例代码原创 2025-07-01 11:21:32 · 1887 阅读 · 0 评论 -
本地虚拟机 docker 中安装体验 qwen2.5 大模型
ollama qwen2.5的tag有133个,为什么选择了0.5b-instruct-q4_K_M这个,因为我的虚拟机资源受限,所以选择一个参数量最小的0.5b,然后选择一个调优过的instruct模型,然后按双核4G内存的考量,直接跑没有量化的0.5b-instruct估计内存够呛。既然有q2、q3、q4、q5、q8位的量化处理模型可供选择,那我就选一个折中的q4,再后面的K可能指的是某种特定的量化策略或配置,S可能是进一步指定了该策略下的一个变体或参数设置,这个就不是我这次考虑的范畴了。原创 2024-12-19 18:15:57 · 2617 阅读 · 0 评论
分享