- 博客(439)
- 收藏
- 关注
原创 LLMs-from-scratch (第7章:指令跟随微调)
在第5章中,我们看到预训练让模型通过一次预测一个词来学习生成文本。因此,预训练好的 LLM 擅长文本补全,但并不擅长严格按照指令办事。本章我们将教会 LLM 更好地遵循指令。本章的主要内容概览如下图所示:希望你享受了从零实现 LLM、编写预训练与微调函数的这段旅程在我看来,从头实现一个 LLM 是理解其工作原理的最佳方式;希望你通过这种方法获得了更深入的理解虽然本书主要用于教学目的,但在实际应用中,你可能会希望使用不同且更强大的 LLM为此,你可以考虑诸如 axolotl(
2025-10-24 03:35:50
1087
原创 Hugging Face 热门模型排行榜 - 2025年10月22日 Top 10
这些热门模型代表了当前AI技术的最新发展方向,从传统的文本生成到多模态理解,从大规模模型到移动端优化,每个模型都在各自的领域推动着技术进步。对于开发者和研究者来说,关注这些热门模型不仅能了解技术趋势,也能为自己的项目选择合适的工具。随着AI技术的不断发展,我们期待看到更多创新模型在Hugging Face平台上涌现,为人工智能的普及和应用贡献力量。数据来源: Hugging Face Models - Trending (2025年10月22日)文章更新时间: 2025年10月22日。
2025-10-22 21:17:04
1181
原创 LLMs-from-scratch:滑动窗口注意力机制
什么是滑动窗口注意力机制(SWA)?如果我们将常规的自注意力机制视为全局注意力机制,因为每个序列元素都可以访问其他所有序列元素,那么我们可以将SWA视为局部注意力,因为这里我们限制了当前查询位置周围的上下文大小。下图展示了这一点。如上图所示,每个标记不是关注所有之前的标记,而是只关注其位置周围固定大小的局部窗口。这种局部化的注意力机制大幅降低了KV缓存的大小。在本介绍的其余部分,我们将在Gemma 3的背景下讨论SWA,该模型在中从零开始实现。滑动窗口注意力机制最初在。
2025-10-22 17:45:23
1146
原创 LLMs-from-scratch:(第6章:文本分类的微调)
请参阅脚本,这是一个用于分类微调的独立脚本您可以在中找到练习解答此外,感兴趣的读者可以在附录E中找到使用低秩适应(LoRA)进行参数高效训练的介绍。
2025-10-22 15:45:56
922
原创 Hugging Face 2025年10月21日 Top 10 热门AI模型
模型链接模型类型: 图像-文本转换 (Image-Text-to-Text)参数规模: 1.0B更新时间: 约2小时前热度指标PaddleOCR-VL 是百度飞桨团队开发的视觉语言模型,专门用于光学字符识别(OCR)任务。该模型能够从图像中提取文本信息,并进行智能理解和处理,在文档数字化、票据识别等场景中表现出色。这些热门模型代表了当前AI技术的最新发展方向,从实用的OCR工具到超大规模的语言模型,每一个都在推动着人工智能技术的边界。对于开发者和研究者来说,这些开源模型提供了宝贵的资源和灵感。
2025-10-21 18:26:45
1330
原创 LLMs-from-scratch:(第5章:在无标签数据上进行预训练)
参见脚本,一个用于训练的独立脚本脚本从OpenAI加载预训练权重并基于提示生成文本您可以在中找到练习解答。
2025-10-21 17:08:09
1033
原创 LLMs-from-scratch:多头潜在注意力(MLA)
在…/04_gqa中,我们讨论了分组查询注意力(GQA)作为提升 MHA 计算效率的一种替代方案。多项消融研究(例如原始 GQA 论文与Llama 2 论文)显示,其在大语言模型的建模性能上与标准 MHA 相当。现在,多头潜在注意力(MLA),被应用于DeepSeek V2、V3 和 R1,提供了另一种与 KV 缓存非常契合的内存节省策略。与 GQA 通过共享键/值头不同,MLA 在将键和值张量存入 KV 缓存之前,先将它们压缩到更低维的空间。
2025-10-21 11:49:27
893
原创 LLMs-from-scratch:分组查询注意力(GQA)
近年来,分组查询注意力(GQA)已成为相较于多头注意力(MHA)更具计算与参数效率的标准替代方案。需要注意的是,GQA 并不新颖,其可追溯到 2023 年的论文。甚至经典的 Llama 2 系列的大型模型变体也采用了它。下面是 GQA 的简要概述。与 MHA 中每个注意力头都拥有各自的键和值不同,GQA 将多个头分组以共享同一套键和值的投影,从而降低内存占用。
2025-10-21 11:15:50
759
原创 LLMs-from-scratch:FLOPS 分析
我们提出了一个与具体实现无关的新效率指标,便于更清晰地比较系统效率,称为模型FLOP利用率(MFU)。这是观测到的吞吐量(token/秒)与系统在峰值 FLOPs 下理论最大吞吐量的比值。关键的是,“理论最大”吞吐量仅计算完成前向与反向传播所需的操作,不包括重物化(rematerialization)。
2025-10-21 01:11:16
924
原创 Apache Spark 集群部署与使用指南
使用 Docker Compose 部署 Spark 集群连接到集群并使用 PySpark执行基本的分布式数据处理任务通过 Web UI 监控集群状态这为进一步的大数据处理和分析奠定了基础。
2025-10-20 23:45:45
2234
原创 Hugging Face 2025年10月20日 Top 10 热门AI模型
2025年10月20日的Hugging Face Top 10榜单展现了AI技术的最新发展动态。从万亿参数的超大模型到轻量级的实用工具,从文本生成到多模态理解,这些模型代表了当前AI技术的最高水平。随着开源社区的不断发展,我们有理由相信,这些先进的AI技术将会更快地普及到各行各业,为人类社会带来更多的便利和创新。Hugging Face作为连接研究者和开发者的桥梁,将继续推动AI技术的民主化进程。本文基于2025年10月20日Hugging Face平台数据整理,模型排名和数据可能会随时间变化。
2025-10-20 16:51:44
1609
原创 LLMs-from-scratch(第4章:从零开始实现GPT模型以生成文本)
请参阅./gpt.py脚本,这是一个包含我们在此Jupyter notebook中实现的GPT模型的独立脚本你可以在中找到练习解答。
2025-10-19 22:11:53
1368
原创 LLMs-from-scratch(多头注意力机制与数据加载)
多头注意力是Transformer架构的核心创新。它允许模型同时关注输入序列中的不同位置和不同类型的信息。通过使用多个"注意力头",模型可以学习到更丰富的表示。
2025-10-19 17:12:50
955
原创 LLMs-from-scratch(第3章:编码注意力机制)
请参阅代码笔记本,这是数据加载器(第2章)加上我们在本章中实现的多头注意力类的简洁版本,我们将在即将到来的章节中训练GPT模型时需要它您可以在中找到练习解答。
2025-10-19 16:16:30
301
原创 LLMs-from-scratch :从零实现字节对编码(BPE)分词器 -- 简化版
1. 识别频繁对在每次迭代中,扫描文本以找到最常出现的字节(或字符)对2. 替换和记录用一个新的占位符ID替换该对(一个尚未使用的ID,例如,如果我们从0…255开始,第一个占位符将是256)在查找表中记录此映射查找表的大小是一个超参数,也称为"词汇表大小"(对于GPT-2,是50,257)3. 重复直到无收益继续重复步骤1和2,不断合并最频繁的对当无法进一步压缩时停止(例如,没有对出现超过一次)解压缩(解码)要恢复原始文本,使用查找表将每个ID替换为其对应的对,逆转过程。
2025-10-19 11:46:56
697
原创 状态机(State Machine)
典型应用:业务流程:订单、审批、工单、售后、交付流水线;解析与编译:词法/协议解析器、格式校验;网络与设备:协议状态机、驱动控制、IoT设备生命周期;UI与交互:向导、多步骤表单、登录安全校验;游戏/机器人:行为切换、AI决策、动作编排。设计实践:明确定义“状态”和“事件”,集中维护转移表;单一入口方法处理事件(如 send),对非法转移抛错;将副作用(日志、外部调用)以动作函数附着在转移上;对关键路径做单元测试:合法事件的期望状态、非法事件的错误;
2025-10-19 02:58:09
829
原创 LLMs-from-scratch(dataloader)
完整的章节代码位于ch02.ipynb。这个笔记本包含了主要要点,即不包含中间步骤的数据加载管道。# 对整个文本进行标记化# 使用滑动窗口将书籍分割成重叠的 max_length 长度序列# 初始化标记器# 创建数据集# 创建数据加载器# 读取文本文件# 定义模型参数vocab_size = 50257 # 词汇表大小output_dim = 256 # 输出维度context_length = 1024 # 上下文长度# 创建嵌入层。
2025-10-16 22:03:13
279
原创 LLMs-from-scratch(第二章:处理文本数据)
请参阅代码笔记本,这是我们在本章中实现的数据加载器的简洁版本,在即将到来的章节中训练GPT模型时需要用到。练习解答请参阅。如果您有兴趣了解如何从头开始实现和训练GPT-2标记器,请参阅从零开始的字节对编码(BPE)标记器笔记本。
2025-10-16 00:52:49
1053
原创 LLMs-from-scratch :PyTorch 缓冲区(Buffers)
PyTorch 中的缓冲区在处理 GPU 计算时特别有用,因为它们需要与模型参数一起在设备之间传输(比如从 CPU 到 GPU)。与参数不同,缓冲区不需要梯度计算,但它们仍然需要在正确的设备上,以确保所有计算都能正确执行。本质上,PyTorch 缓冲区是与 PyTorch 模块或模型关联的张量属性,类似于参数,但与参数不同的是,缓冲区在训练过程中不会被更新。如上所示,将张量注册为缓冲区可以让我们的生活变得更轻松:我们不必记住手动将张量移动到像 GPU 这样的目标设备。正如我们将在下一节中看到的,使用。
2025-10-15 22:42:56
762
原创 LLMs-from-scratch :KV 缓存
简而言之,KV 缓存存储中间的键(K)和值(V)计算结果以便在推理过程中重复使用,这能在生成响应时带来显著的速度提升。缺点是会增加代码复杂性,增加内存使用量,并且不能在训练过程中使用。然而,在部署大语言模型时,推理速度的提升通常值得在代码复杂性和内存方面做出权衡。
2025-10-15 21:34:27
1124
原创 Einops vs PyTorch 张量操作对比指南
可读性强:操作意图一目了然PyTorch- 需要记住数字索引的含义Einops- 直接表达维度的语义。
2025-10-12 17:56:03
1014
原创 OpenAI Agents 记忆管理示例
本文档演示了 OpenAI Agents 框架中的各种记忆管理方案,包括 SQLite、SQLAlchemy 和 Redis 会话存储。通过这些示例,您将了解如何在多轮对话中保持上下文记忆,实现持久化存储,以及不同存储方案的特点和适用场景。首先,我们需要配置必要的环境变量和依赖项:SQLite 会话存储示例SQLite 是一个轻量级的嵌入式数据库,非常适合本地开发和小型应用。OpenAI Agents 提供了 类来实现基于 SQLite 的会话存储。下面的示例展示了如何使用内存数据库进行会话管理:
2025-10-12 16:42:34
1181
原创 Agno 框架结合 xAI 模型的多场景代理开发实践(含代码示例)
'在未来的世界中,骆驼们利用先进的科技和智慧统治了地球。人类被迫成为骆驼的仆人,但一位勇敢的人类领袖决定反抗骆驼的统治。在激烈的斗争后,人类和骆驼达成和解,共同创造了一个和平的新世界。'在骆驼统治下的世界里,人类和骆驼最终达成和解,共同生活在一个和平的新社会。创建一个专门用于金融分析的代理,配置了YFinance工具和详细的分析指令。'在未来的地球上,骆驼们通过智慧和科技统治了世界,人类成为了他们的仆人。创建一个具有实时搜索功能的代理,可以获取最新的新闻信息。
2025-10-11 23:32:00
496
原创 Terminal-Bench:AI 代理终端任务基准测试框架正式发布
今天介绍一个新基准测试框架——。这个框架旨在量化评估 AI 代理在终端(Terminal)环境中完成复杂任务的能力。作为一个文本-based 的强大工具,终端已成为 AI 代理的标准接口,但当前代理仍存在诸多挑战。Terminal-Bench 将为开发者提供宝贵的工具和数据,帮助推动代理在终端中的性能提升。。
2025-10-11 23:29:46
1388
原创 LFM2 模型介绍
LFM2 是 Liquid AI 推出的新一代混合模型,专为边缘 AI 和端侧部署而设计,在质量、速度和内存效率方面树立了全新标准。此次开源了四个经过后训练(post-trained)的模型权重,参数量分别为 3.5 亿(350M)、7 亿(700M)、12 亿(1.2B)和 26 亿(2.6B)。训练与推理更快速:LFM2 的训练速度相比上一代模型提升 3 倍;在 CPU 上的解码(decode)和预填充(prefill)速度也比 Qwen3 快 2 倍。卓越性能表现。
2025-10-11 23:22:37
267
原创 Jamba Reasoning 3B 模型介绍
Jamba Reasoning 3B 是一个紧凑、开源的推理模型,由 AI21 Labs 发布,标志着Jamba 模型家族新系列的第一个成员。它重新定义了设备端(on-device)智能模型的可能性。
2025-10-11 00:22:48
774
原创 OpenAI Agents 并行化实现
翻译Agent - 负责将文本翻译成西班牙语# 选择Agent - 负责从多个翻译结果中选择最佳的OpenAI Agents的并行化机制通过Python的异步编程模型,提供了高效、可扩展的AI任务处理能力。结合完善的追踪和监控功能,开发者可以构建高性能的AI应用系统。使用实现真正的并行执行通过trace()确保完整的执行追踪合理设计任务分解和结果聚合逻辑注意错误处理和资源管理这种并行化模式特别适合需要处理大量相似任务或需要多个AI模型协作的场景。
2025-10-09 23:29:19
808
原创 OpenAI Agents实现Tool Guardrails
send_email: 发送邮件功能: 获取用户数据(包含敏感信息如SSN): 获取联系信息(包含电话号码)这些函数使用装饰器来标记为可供AI代理调用的工具。# 工具函数定义print("=== 3. 定义工具函数 ===")
2025-10-09 00:00:39
652
原创 深入理解浮点数格式:FP32、BF16、FP16与FP8的技术对比
格式总位数符号位指数位尾数位偏移量精度动态范围FP32321823127高很大BF1616187127中很大FP1616151015中小FP8-E5M2815215低中FP8-E4M381437低小。
2025-10-08 22:59:50
1651
原创 构建AI安全防线:基于越狱检测的智能客服守护系统
reasoning:检测逻辑的分析过程is_safe:安全状态的布尔判断本文介绍的基于越狱检测的智能客服守护系统,展示了如何将先进的大语言模型与安全防护机制相结合,构建既智能又安全的AI应用。通过Guardrail技术,我们能够在享受AI带来便利的同时,有效防范潜在的安全风险。这种架构模式具有很强的通用性,可以轻松适配到各种需要AI对话能力的场景中,为构建下一代智能应用提供了可靠的技术基础。
2025-10-01 23:01:39
903
原创 构建智能航空客服系统:基于 Agent Guardrail 的相关性检测
Agent 框架:提供智能对话能力Guardrail 机制:实现输入内容的相关性检测通义千问模型:作为底层大语言模型Pydantic 数据验证:确保数据格式的正确性"""用于相关性守护规则判定的模式。"""reasoning:模型对相关性判断的分析过程:布尔值,表示输入是否与航空服务相关本文介绍的基于 Agent Guardrail 的航空客服系统展示了如何将大语言模型与业务规则相结合,构建既智能又可控的对话系统。通过相关性检测机制,系统能够确保专注于专业领域,提供高质量的服务体验。
2025-10-01 20:55:15
701
原创 使用 Python 将文件上传到 Supabase Storage 并记录元数据
在现代应用开发中,文件上传功能是必不可少的需求。Supabase 作为一款优秀的开源 BaaS 平台,提供了强大的存储服务。本文将详细介绍如何使用 Python 将本地文件上传到 Supabase Storage,并将文件的元数据保存到数据库中。
2025-10-01 14:58:33
368
原创 构建实时网络速度监控面板:Python Flask + SSE 技术详解
这个网络监控工具可以实时显示每个网络接口的下载和上传速度,类似于 Web 版本的iftop或nload命令。使用psutil库获取系统网络信息SSE 技术的原理和实现方式实时数据计算的差分方法前后端分离的 Web 应用架构这个网络监控工具不仅实用,也是学习实时 Web 应用开发的优秀示例。你可以基于这个基础继续添加更多功能,打造属于自己的系统监控工具。希望这个教程对你有所帮助!
2025-10-01 01:23:29
406
原创 supabase 实现聊天板(Chat Board)
前提条件:windows中部署supabase与测试在 Studio -> SQL 编辑器 中执行 里新增的聊天表与策略,或复制如下片段:2) 快速测试(REST + Realtime)环境变量设置拉取最近消息:发送消息:3) 最小前端片段(可直接嵌入)将下列 HTML 保存为 并在浏览器中打开(注意将 与 替换成你的值):
2025-09-30 22:38:20
667
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅