开源学习大语言模型(LLM)

最新推荐文章于 2025-11-21 09:54:50 发布

原创最新推荐文章于 2025-11-21 09:54:50 发布 · 263 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习

python 专栏收录该内容

28 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

1.从零开始的 LLM 原理与实践教程

happy-llm：从零开始的 LLM 原理与实践教程。该项目是帮助初学习者系统地学习大语言模型（LLM）原理与实践的教程。通过详细的教程和实战案例，循序渐进地带领读者深入了解自然语言处理（NLP）基础、Transformer 架构、预训练语言模型的基本原理，并动手实现和训练自己的大语言模型。

地址：https://github.com/datawhalechina/happy-llm

2.从零开始构建的轻量级 vLLM

nano-vllm：从零开始构建的轻量级 vLLM。该项目是用 Python 实现的轻量级 vLLM（大语言模型推理引擎）项目，核心代码仅 1000 多行。它结构清晰、易于阅读，推理速度媲美 vLLM 原版，并集成了前缀缓存（Prefix Caching）、张量并行（Tensor Parallelism）和 Torch 编译等推理优化技术。

from nanovllm import LLM, SamplingParams
llm = LLM("/YOUR/MODEL/PATH", enforce_eager=True, tensor_parallel_size=1)
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)
prompts = ["Hello, Nano-vLLM."]
outputs = llm.generate(prompts, sampling_params)
outputs[0]["text"]

地址：https://github.com/GeeeekExplorer/nano-vllm

您可能感兴趣的与本文相关的镜像

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小白用python

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

nano-vllm 系列 1｜从 0 到 1 看懂超轻量 LLM 推理框架

AlgoCraft

09-17

592

nano-vllm 是清华大学开源的超轻量级 LLM 推理框架，兼具教学与生产价值。核心代码不足 3k 行，支持张量并行、分页 KV-Cache 和 CUDA Graph 等优化技术，兼容 HuggingFace 模型。该框架采用 Megatron-LM 1D 列切方式实现 TP 并行，通过块级管理 KV-Cache 提升显存利用率，并智能应用 CUDA Graph 优化小 batch 解码性能。实测在 A100 上 7B 模型 TP=2 时 decode 吞吐达 3.2k tok/s。

2024 年 8 个顶级开源 LLM（大语言模型）_开源llm

2501_90251264的博客

01-16

1177

选择开源 LLM 的公司将可以访问 LLM 的工作原理，包括它们的源代码、架构、训练数据以及训练和推理机制。这种透明度是审查的第一步，也是定制的第一步。由于每个人都可以访问开源 LLM，包括它们的源代码，因此使用它们的公司可以针对其特定用例对其进行自定义。

参与评论您还未登录，请先登录后发表或查看评论

【AI-Infra】深入 Nano-vLLM

记录成长

08-15

1648

Nano-vLLM是一个轻量级大模型推理引擎实现，其设计核心包含三个关键模块： LLM引擎通过step()方法驱动"调度→推理→后处理"的循环流程，动态协调请求处理调度器采用动态批处理策略，优先处理prefill请求，在KV缓存不足时执行抢占机制，确保GPU高利用率 KV缓存管理创新性地实现前缀缓存，通过块哈希复用相同prompt的计算结果，显著提升prefill效率。该系统以约1200行Python代码实现了大模型推理的核心优化技术，包括PagedAttention、动态批

Nano-vLLM - 轻量级vLLM实现

AI工程化、开源分享、文档翻译、代码笔记

09-28

540

一、关于 Nano-vLLM 1、项目概览 2、相关链接资源 3、功能特性二、安装配置三、快速开始四、性能基准

[nano-vllm] docs | 高性能LLM 推理引擎

一个人知道自己为什么而活，他就能够接收任何一种生活

11-09

313

`nano-vllm`是一个**高效推理系统**，专门用于通过*大型语言模型*生成文本它就像一个**智能工厂**，接收用户输入的提示词，==智能地管理它们以充分利用GPU资源==，然后通过神经网络处理这些提示，快速生成*高质量的文本补全*

Nano-vLLM 源码学习

haohaifeng002的博客

07-01

1831

Nano-vLLM是一个轻量级vLLM实现项目，具有高效推理、代码可读性强等特点。项目包含引擎管理和基础层实现两大核心模块：引擎目录(engine)通过LLMEngine、ModelRunner等组件构建推理流程，支持序列管理、块缓存优化和并行计算；基础层目录(layers)提供注意力机制、激活函数等基础组件，采用Triton优化KV缓存和Flash Attention加速计算。测试显示在RTX 4070笔记本上吞吐量优于原版vLLM，适用于需要高效离线推理的场景。项目结构清晰，包含bench测试、示例代码

nano-vLLM：轻量级大型语言模型推理实现

gitblog_00410的博客

06-13

757

在自然语言处理（NLP）领域，大型语言模型（LLM）的应用日益广泛。然而，这些模型通常需要大量的计算资源，尤其是在推理阶段。为了解决这个问题，nano-vLLM 项目应运而生。它是一个轻量级的大型语言模型推理实现，旨在提供与现有 vLLM 相似的推理速度，同时拥有更易读的代码库和优化工具套件。 ## 项目技术分析 nano-vLLM 从头开始构建，采用了多种优化技术，以实现高效的离线推理。以下...

最全的开源 LLM （大语言模型）整理.zip

09-04

本资源包“最全的开源 LLM （大语言模型）整理.zip”是关于开源大语言模型的一个综合集合，涵盖了多个知名的项目，帮助开发者和研究人员更好地了解和利用这些先进的技术。【描述】: 这个压缩包包含了一个名为...

一个基于 Java 的 LLM（大语言模型）应用开发（及编排）框架

09-06

在当前的软件开发领域，人工智能技术尤其是大语言模型（LLM）的应用正成为一种重要的发展趋势。大语言模型，也被称为大型语言模型，是一种复杂的机器学习模型，通常采用深度学习技术，尤其是基于Transformer架构的...

LangChain开源大型语言模型（LLM）框架

11-09

LangChain是由Harrison Chase开发的一个框架，迎合了大型语言模型（LLM）的需求。在OpenAI的GPT-3取得巨大成功后，它的受欢迎程度激增，可以说，GPT-3.5和GPT-4更是如此。2022年10月底推出的LangChain利用了这些进展...

必看收藏！仅1200行Python代码：nano-vLLM带你深入理解vLLM加速大模型推理的核心奥秘

最新发布

大模型教程的博客

11-21

1147

本文介绍了vLLM如何通过PagedAttention技术解决大模型推理中的显存管理问题，并介绍了nano-vLLM这个简化版学习项目。PagedAttention通过显存块化与逻辑映射解决了内存碎片问题，实现了写时复制、前缀缓存和智能调度等优化，大幅提升显存利用率和推理吞吐量。nano-vLLM用约1200行Python代码实现了这些核心思想，是学习大模型推理加速的重要资源。

nano-vllm：千行代码实现大模型推理引擎，小白也能轻松上手！大模型实战

2301_80239908的博客

09-16

1184

nano-vllm是一个极简但功能完整的大语言模型推理引擎实现，代码量仅千余行。它复现了现代推理引擎的核心机制，包括prefill/decode两阶段处理、KVCache分块管理、调度器批次装载与抢占等。项目模块边界清晰，便于阅读和修改，特别适合LLM初学者理解推理引擎的工作原理。通过nano-vllm，读者可以快速掌握"为什么需要分块KV、为什么要区分prefill/decode"等关键问题，并能将所学迁移到更完整的工程实现中。

轻量级因果语言视觉模型简述：nanoVLM-222M

直达开源前线，冲冲冲！

05-10

915

nanoVLM是一个极简且轻量级的视觉-语言模型（VLM），专为高效训练和实验而设计。该模型完全基于纯PyTorch构建，整个模型架构和训练逻辑仅占用约750行代码。它通过结合基于ViT的图像编码器（SigLIP-B/16-224-85M）和轻量级因果语言模型（SmolLM2-135M），形成了一个仅有222M参数的紧凑模型。

nm-vllm：赋能自然语言处理的高效框架

gitblog_00277的博客

03-26

305

nm-vllm：赋能自然语言处理的高效框架项目介绍 nm-vllm 是一个专注于自然语言处理（NLP）领域的开源项目，它致力于提供高性能、可扩展的解决方案，以推动人工智能技术在文本理解、生成和交互等任务中的应用。虽然该项目在2024年9月已归档，但Neural Magic公司依然提供了与VLLM相关的企业级解决方案，以满足不同用户的需求。项目技术分析 nm-vllm 的核心是基于大规模语言模型...

nano vllm解析

2301_79680896的博客

08-13

862

nano vllm不仅做到轻量化，而且推理速度也媲美vllm，同时代码结构相对于vllm来说也更简洁，更适合小白入门学习源码。笔者自己在学习该项目时也存在部分问题，因项目缺少注释，或者部分地方难以理解。将阅读源码的笔记分享出来，与广大网友共进。如有不正确的地方，欢迎大家指正。

AI大模型企业应用实战：Prompt让LLM理解知识

2401_84204413的博客

06-25

2912

轻量级vLLM实现Nano-vLLM：1200行代码实现媲美原版性能，小模型实测超越原版！

WANGJUNAIJIAO的博客

11-19

670

本文介绍轻量级vLLM实现——Nano-vLLM，这是一个仅约1200行Python代码的简洁实现，提供与vLLM相当的推理速度。文章提供详细安装和使用方法，测试显示在小模型场景下，Nano-vLLM吞吐量甚至超过原版vLLM。对于需要在大模型部署中节省资源的开发者，Nano-vLLM是理想的轻量级替代方案。

解密vLLM：基于nano-vllm源码剖析其推理加速之道

深度学习机器

10-15

1147

vLLM对于部署过大模型的人来说应该都不算陌生, 它能极大提升LLM的服务吞吐量，显著降低推理成本。vLLM成功的核心秘诀在于一项名为的技术及其配套的调度策略，对于不熟悉底层的人来说，这些概念可能非常晦涩难懂。幸好，DeeoSeek一位研究员开源了一个学习项目，，仅使用约1200行Python代码就实现了vLLM的核心功能，相比原生的vLLM来说更容易学习其核心思想。得益于轻量化的设计，在Qwen3的推理速度上比vLLM更快。