
DeepSeek前线:解密前沿LLM技术+小白入门
文章平均质量分 87
我们一起剖析DeepSeek系列大模型架构设计和训练细节,揭秘其高性能计算与动态路由系统的独特优势,掌握前沿技术脉络。与此同时,实战赋能,提供各种行业场景的应用案例,有Prompt Engineering,模型垂域适配,助你轻松上手。
kakaZhui
人工智能算法工程师,热爱AI,改变世界
展开
-
为啥每个 LLM 的 Template 都不同?—— Qwen、Llama 3 与 DeepSeek 模型 Chat Template 对比及设计溯源
在与大型语言模型(LLM)交互,尤其是进行对话式应用开发和监督式微调(SFT)时,我们总会遇到一个看似琐碎却至关重要的概念——Chat Template(对话模板)。开发者们常常发现,Llama 3 的模板规则是一套,换到 Qwen 模型又是另一套,再看 DeepSeek,格式又变了。这不禁让人疑惑:为什么不能有一个统一的标准?为啥每个模型的“对话语法”都自成一派?这些模板差异往往关联着模型的预训练数据、设计哲学、甚至是网络结构的考量。原创 2025-04-03 09:10:45 · 122 阅读 · 0 评论 -
解码 Llama 3 SFT:Templates、Special Tokens 及其在微调中的作用
对话模板 (Chat Templates)和特殊标记 (Special Tokens)。它们是指导模型如何理解和生成结构化对话的关键“语法规则”。没有正确理解和使用它们,你的微调效果可能会大打折扣,甚至模型会“胡言乱语”。本文将以 Llama 3 为例,深入探讨 Template 和 Special Token 的定义、它们在 SFT 训练过程中的具体应用,以及这样设计背后的目的。原创 2025-04-02 18:46:53 · 244 阅读 · 0 评论 -
LLM 分词器Tokenizer 如何从 0 到 1 训练出来
大型语言模型(LLM)处理的是人类的自然语言,但计算机本质上只能理解数字。Tokenizer(分词器)就是架在自然语言和计算机数字表示之间的一座至关重要的桥梁。它负责将我们输入的文本字符串分解成模型能够理解的最小单元——Token,并将这些 Token 转换成对应的数字 ID,反之亦然(将 ID 转换回文本)。那么, LLM Tokenizer如何训练、评估呢?原创 2025-04-02 18:40:22 · 186 阅读 · 0 评论 -
【实战】如何基于 Python Flask 快速开发一个支持 OpenAI 流式接口的 LLM Server
本文介绍一步步使用轻量级的 Python Web 框架,快速开发一个后端服务,它不仅能调用你的 LLM,还能模拟 OpenAI 的流式接口,让你的前端应用或客户端可以无缝对接。原创 2025-04-01 18:49:11 · 221 阅读 · 0 评论 -
【实战】LLaMA-Factory 如何做 LLM 的多轮对话微调
LLaMA-Factory 作为一个广受欢迎、易于使用的 LLM 微调框架,为开发者提供了便捷的途径来针对特定任务(包括多轮对话)优化模型。本文将深入探讨 LLaMA-Factory 如何支持多轮对话微调,涵盖其基本概念、数据准备、核心机制、评估方法等。简单来说,多轮对话是指包含两个或更多轮次(Turn)的交互过程,其中每一轮通常包含用户的一个输入和模型的一个输出。后续轮次的回应通常依赖于前面轮次的对话内容。模型需要理解并记忆对话历史。原创 2025-04-01 18:38:36 · 255 阅读 · 0 评论 -
LLM 的 Function Calling 是怎么练成的
Function Calling 指的是 LLM 在处理用户请求时,能够理解请求中隐含的调用外部工具或函数的需求,生成符合预定义格式的函数调用参数,并在获取外部工具执行结果后,结合该结果生成最终回复的能力。核心流程分解:用户用自然语言提出包含特定任务或信息需求的请求。“给张三发邮件,告诉他会议改到明天下午 3 点了。LLM 分析用户请求,识别出需要调用外部函数来完成任务,并从一系列预定义的可用函数中选择最合适的那个。LLM 识别出需要调用send_email函数。原创 2025-03-26 18:13:59 · 165 阅读 · 0 评论 -
基于 SGLang 部署 Qwen2.5 7B 模型
LLM 推理通常需要较长的计算时间,导致响应延迟高。由于计算资源有限,LLM 服务难以同时处理大量请求。编写高效的 LLM 服务程序通常需要深入了解底层系统和并行计算。**RadixAttention:**一种新的注意力机制, 通过将key和value张量组织成树状结构(基数树)来实现更有效的内存访问. 从而减少内存占用和计算时间。传统批处理需要等待一批请求都完成后才能开始处理,SGLang 的连续批处理允许新的请求随时加入正在处理的批次中,从而减少等待时间,提高吞吐量。原创 2025-03-25 20:20:03 · 215 阅读 · 0 评论 -
【llm对话系统】大模型 Llama 源码分析之 LoRA 微调
如何基于llama模型进行lora微调原创 2025-02-02 00:00:00 · 1147 阅读 · 0 评论 -
【llm对话系统】大模型 Llama 源码分析之并行训练方案
llama源代码中的并行训练方案解析原创 2025-02-01 00:00:00 · 1153 阅读 · 0 评论 -
【llm对话系统】大模型 Llama 如何进行量化和推理
大模型推理速度太慢?试试量化,加速推理原创 2025-02-05 19:00:00 · 571 阅读 · 0 评论 -
【llm对话系统】llm大语言模型推理之vllm多gpu批推理
参数来控制使用多少个 GPU 进行模型加载和推理。GPU 编号从 0 开始。分配的 GPU 顺序一致。原创 2025-01-26 00:00:00 · 920 阅读 · 0 评论 -
【llm对话系统】大模型 Llama 源码分析之 Flash Attention
基于llama源码分析flash attention机制原创 2025-01-31 14:53:05 · 1439 阅读 · 0 评论 -
【llm对话系统】大模型源码分析之llama模型的long context更长上下文支持
llama源码分析之更长上下文支持的逻辑分析原创 2025-01-30 00:00:00 · 1396 阅读 · 0 评论 -
如何理解LLM推理时的参数Temperature和Top_k
在深入理解和top_k之前,我们需要先简单了解一下LLM生成文本的基本过程。LLM本质上是一个概率模型。给定一个输入文本序列(prompt),LLM会计算下一个词的概率分布。例如,给定输入 “The cat sat on the”,模型可能会预测下一个词是 “mat” 的概率为 0.6,“sofa” 的概率为 0.2,“chair” 的概率为 0.1,等等。然后,模型会根据这个概率分布进行采样,选择一个词作为输出。这个采样过程就是和top_k发挥作用的地方。原创 2025-03-24 18:36:02 · 655 阅读 · 0 评论 -
【llm对话系统】大模型 Llama 源码分析之归一化方法 RMS Norm
归一化方法RMS Norm是什么?为什么llama使用这个方案?原创 2025-02-02 11:30:00 · 648 阅读 · 0 评论 -
【llm对话系统】LLM 是如何训练出来的?揭秘大语言模型预训练
LLM 的训练是一个复杂而漫长的过程,需要海量的训练数据、庞大的模型参数、强大的计算资源以及高效的训练策略。通过数据准备、模型构建、模型训练和模型评估四个步骤,我们可以训练出一个拥有强大能力的 LLM。希望这篇文章能够帮助你理解 LLM 是如何训练出来的。当然,这只是一个简化的介绍,LLM 的训练涉及到很多复杂的细节和技巧。如果你想深入了解更多信息,建议阅读相关的论文和代码,并动手实践。原创 2025-01-22 22:00:00 · 621 阅读 · 0 评论 -
【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE
本文详细介绍了 LLaMA 模型中使用的 Rotary Embedding 位置编码方法。通过源码分析和对比传统的位置编码,我们了解了 RoPE 的核心原理和优势。RoPE 通过旋转操作高效地编码相对位置信息,为 LLaMA 模型的强大性能提供了重要的基础。希望本文能帮助你更深入地理解 Transformer 模型中的位置编码机制。原创 2025-01-29 14:45:45 · 1464 阅读 · 0 评论 -
【python】llm训练数据预处理:长文本去重
SimHash 是一种局部敏感哈希算法,可以将文本映射成一个固定长度的指纹 (例如 64 位)。相似的文本具有相似的指纹,可以通过计算指纹之间的汉明距离 (不同位的数量) 来判断文本的相似性。它通过计算文本的 Jaccard 相似度(交集大小除以并集大小)来估计文本之间的相似性。传统的字符串匹配算法(如编辑距离)在语义层面效果有限且计算成本高。这是最常用的方法,核心思想是将文本转换为向量表示,然后通过计算向量之间的相似度来判断文本的语义相似性。将文本聚类成不同的组,每个组内的文本被认为是相似的。原创 2025-01-25 12:45:00 · 539 阅读 · 0 评论 -
大模型 Llama 微调如何适配中文_词表扩展
Llama 如何针对中文进行词表扩展原创 2025-02-05 18:11:29 · 364 阅读 · 0 评论 -
【llm对话系统】 LLM 大模型推理python实现:vLLM 框架
LLM 推理实现和vLLM 框架的使用原创 2025-01-28 06:15:00 · 1399 阅读 · 0 评论 -
【llm对话系统】大模型源码分析之llama kv cache缓存逻辑
大模型llama源码分析之KV Cache原理和代码分析原创 2025-01-30 11:30:00 · 1506 阅读 · 0 评论 -
【llm对话系统】LLM 大模型到底长成什么样子?揭秘 Transformer 和大语言模型的内部结构
LLM 的内部结构是基于 Transformer 架构的,Transformer 通过自注意力机制来捕捉句子中词与词之间的关系。不同的 LLM 会在 Transformer 的基础上进行修改和扩展,例如 GPT 模型只使用了 Transformer 的 Decoder 部分,并采用了自回归的方式生成文本。LLM 的输入是文本序列,输出是下一个 Token 的概率分布。希望这篇文章能够帮助你理解 LLM 的内部结构和工作原理。当然,这只是一个简化的介绍,LLM 的实际实现要复杂得多。原创 2025-01-22 22:00:00 · 698 阅读 · 0 评论 -
【llm对话系统】LLM 大模型为什么好用?揭秘 SFT 与 RLHF 的神奇力量
SFT 让 LLM 学会理解和执行指令。RLHF 让 LLM 更加符合人类的价值观和安全准则。通过 SFT 和 RLHF,LLM 不仅能够生成流畅的文本,还能更好地理解人类的意图,生成更符合人类期望的输出,从而在各种应用场景中发挥更大的作用。原创 2025-01-23 22:15:00 · 876 阅读 · 0 评论 -
【llm对话系统】如何快速开发一个支持openai接口的llm server呢
已有一个大模型的推理脚本,如何快速开发一个支持openai接口的server呢原创 2025-02-24 23:00:00 · 1017 阅读 · 1 评论 -
【llm对话系统】Gradio快问快答
inputs=gr.Textbox(value=“请输入你的名字”, label=“姓名”),原创 2025-01-27 00:00:00 · 498 阅读 · 0 评论 -
【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比
大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比原创 2025-02-01 15:29:36 · 2701 阅读 · 0 评论 -
【llm对话系统】LLM 大模型Prompt 怎么写?
LLM Prompt 怎么写?快速上手大模型的使用原创 2025-01-27 14:00:00 · 1330 阅读 · 0 评论 -
【llm对话系统】 LLM workflow 大模型工作流妙用:定制个人AI助手
如何使用大模型搭建个人工作流呢原创 2025-01-25 13:45:00 · 763 阅读 · 0 评论 -
【llm对话系统】RL强化学习的技术演进与RLHF
强化学习是一个不断发展的领域,从基本的 RL 算法到应用于 LLM 的 RLHF、DPO 等技术,其核心思想始终是通过与环境的交互来学习最优策略。随着技术的不断进步,RL 将在 LLM 的训练和优化中发挥越来越重要的作用,推动 LLM 向着更智能、更安全、更符合人类期望的方向发展。RLHF 是 ChatGPT 训练过程中的关键步骤,它利用人类反馈来提升模型的性能,特别是生成更符合人类偏好和价值观的回复。除了 RLHF,还有一些新的 RL 技术被应用于 LLM 的训练和优化,以进一步提升模型的性能和能力。原创 2025-01-24 18:45:00 · 1044 阅读 · 0 评论 -
【llm对话系统】什么是 LLM?大语言模型新手入门指南
LLM 是一种非常强大的 AI 模型,它们正在改变我们与计算机交互的方式。虽然背后的技术很复杂,但理解其基本概念并不难。希望这篇文章能帮助你入门 LLM,并激发你进一步探索这个领域的兴趣。未来,LLM 还将继续发展,变得更加智能、更加强大。让我们一起期待 LLM 带来的更多惊喜吧!原创 2025-01-22 22:00:00 · 929 阅读 · 0 评论 -
【llm深度分析】从Loss Function设计上看LLM SFT和RL的区别和联系
如何看大模型微调SFT和强化学习RL,loss如何设计,有何关联原创 2025-02-19 22:30:00 · 794 阅读 · 0 评论 -
深入浅出理解LLM PPO:基于verl框架的实现解析之二(完)
(书接上文)原创 2025-03-24 14:56:59 · 122 阅读 · 0 评论 -
深入浅出理解LLM PPO:基于verl框架的实现解析之一
DeepSeek R1的经验说明RL可极大增强模型推理能力,我们如何借助verl框架入门RL中的PPO算法呢?原创 2025-03-21 23:17:23 · 237 阅读 · 0 评论 -
Logic-RL:小参数qwen模型复现DeepSeek R1 zero
最近很多参照DeepSeek模型训练推理模型的工作,本文将深入 “Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning” 的论文,该论文提出了一种新颖的规则驱动强化学习(Rule-Based Reinforcement Learning, Logic-RL)框架,旨在提升 LLM 的逻辑推理能力。原创 2025-03-18 18:24:35 · 180 阅读 · 0 评论 -
【实践】Manus如何从0到1复现
Manus在Level 1、Level 2、Level 3三个难度级别上均取得了SOTA结果,特别是在复杂任务(Level 3)上的表现优于其他AI助手。在GAIA基准测试中,Manus的复杂任务完成率高达78%,平均调用5.3个专业工具,综合表现超越OpenAI同类产品。用户请求 → 规划代理拆解 → 文件读取 → 数据提取 → 薪资验证 → 报告生成 → 结果验证 → 最终输出。“请分析resumes.zip中的3份简历,按技术匹配度排序并生成包含薪资建议的PDF报告”原创 2025-03-12 17:00:37 · 197 阅读 · 0 评论 -
【AI教师】老师如何使用DeepSeek大模型提升工作效率和教学效果
大型语言模型(LLM)的兴起,如DeepSeek,为各行各业带来了前所未有的机遇,尤其是教育行业,以教师为例,借助DeepSeek可以显著提升工作效率、优化教学设计、并最终提升学生的学习效果。然而,如何有效地将这些强大的AI工具融入日常教学工作,仍然是个未知数(调研了下身边的教师朋友,都摊手表示不懂不会)。原创 2025-03-07 22:06:59 · 264 阅读 · 0 评论 -
【论文精读】李飞飞26分钟蒸馏出模型S1,效果媲美DeepSeek R1?
1. 对于推理模型,无论是DeepSeek R1还是李飞飞的S1,RL还是SFT不是重点,重点是高质量数据,高质量数据,高质量数据(重点说三遍),然后数据多样性也要兼顾。(有意思的是,数据筛选手段:Qwen2.5能回答的,咱不要,直接上强度!!!2. S1效果并不惊艳,对标的是openai的o1-preview,跟sota距离挺远的3. 预算强制方法让人略惊艳:在推理过程中,强制结束或延长思考时间来控制推理计算时间,从而干预推理效果。1)“Final Answer”:思考时间到了。原创 2025-02-10 18:46:09 · 949 阅读 · 0 评论 -
【推理llm论文精读】DeepSeek-R1:强化学习驱动LLM推理能力飞跃
最近deepseek R1模型大火,正好复习一下他家的技惊四座的论文原创 2025-02-10 22:00:52 · 1330 阅读 · 0 评论 -
【推理llm论文精读】DeepSeek V3技术论文_精工见效果
DeepSeek-V3是DeepSeek-AI团队推出的力作,一个强大的混合专家(Mixture-of-Experts,MoE)语言模型。它拥有671B的总参数量,但每个token仅激活37B参数,实现了效率和性能的平衡。DeepSeek-V3在架构上采用了多头潜注意力(Multi-head Latent Attention, MLA)和DeepSeekMoE,并在训练策略上进行了创新,引入了无辅助损失的负载均衡和多token预测目标。原创 2025-02-12 21:00:00 · 783 阅读 · 0 评论 -
【LLM强化学习】LLM 强化学习中 Critic 模型训练详解
Critic 模型的目标是学习一个价值函数 (Value Function),这个价值函数能够 **预测在给定状态 (State) 下,采取某个行动 (Action) 所能获得的未来累积奖励 (Cumulative Reward) 的期望值,本文主要介绍critic模型如何训练原创 2025-02-14 22:30:00 · 814 阅读 · 0 评论