LLM大模型
文章平均质量分 91
各种LLM大模型的原理、源码剖析、垂直领域数据处理、指令微调 lora tuning微调、RLHF强化学习和人类指令对齐的讲解专栏
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【LLM】大模型SFT技术总结(数据|训练|评估)
# 一、背景篇## 1. Special Token pretrain 阶段完全没见过的 token,在sft 阶段会被赋予全新的语义。主要用于标注对话的角色:user、assistant、system 这些。此外,special_token 可以用来“构造知识”,比如"喜欢"这种知识一定是 sft 阶段才会见到的,可以剔除掉 pretrain 先验知识的影响,用来验证 sft 的训练情况,比如会不会过拟合。我默认大家都知道怎么用 special_token 去拼 prompt,如果不熟悉,看下原创 2024-11-04 15:58:09 · 6686 阅读 · 0 评论
-
【LLM】sft和pretrain数据处理和筛选方法
# note- 痛点:训练垂直领域模型,sft数据和增量pretrain数据质量把控很重要 - 当数据不够时,通过self-instruct等方法造多样化的数据 - 当数据很多时,需要清洗/筛选出高质量数据@[toc]# 一、sft数据的筛选策略内容概要:- 构造sft数据- 评估sft数据质量和数量- 自动化筛选高质量sft数据## 1.1 使用self-instruct构造sft数据论文:《Self-Instruct: Aligning Language Model wit原创 2023-10-29 17:44:39 · 9150 阅读 · 4 评论
-
【LLM模型篇】LLaMA2 | Vicuna | EcomGPT等
EcomGPT:电商领域大模型解决问题:解决电商场景任务(如品牌识别,评价解析,广告文案生成等)论文链接:https://arxiv.org/abs/2308.06966GitHub链接:https://github.com/Alibaba-NLP/EcomGPT1. sft数据从学术论文或竞赛平台等开放数据源收集了共65个各种电商任务数据集,包括命名实体识别、评论问答、商品类目预测、多轮对话等传统的自然语言处理任务。这些开源数据集的任务都是由领域专家设计,然后由受过培训的人工标注,数据质量很高原创 2023-09-02 20:52:23 · 4025 阅读 · 4 评论
-
【LLM算法工程】Megatron-LM | deepspeed | 量化/推理框架
当前比较主流的一些分布式计算框架 DeepSpeed、Megatron 等,都在降低显存方面做了很多优化工作,比如:量化、模型切分、混合精度计算、Memory Offload 等文章目录note大模型参数计算1. 模型参数单位2. 训练显存计算3. 推理显存计算大模型的分布式训练1. 数据并行2. 模型并行3. 流水并行4. 混合并行模型量化DeepSpeed ZeRO:零冗余优化DeepSpeed Chatfastertransformer:LLM推理加速引擎Megatro原创 2023-09-19 00:24:34 · 7279 阅读 · 0 评论
-
【KD】Generalized Knowledge Distillation和On-Policy Distillation
传统 KD:教师模型生成一些训练输出,生模型模仿这些输出。GKD(广义 KD):学生模型先自己生成一些序列,然后用教师模型对这些学生生成的序列进行打分或提供反馈,学生模型基于这些反馈进一步调整自己。这可以更好解决“训练时只学教师输出,而测试时要靠自己生成输出”之间的分布不一致问题。GKD = 用 teacher 的“软分布”监督 student,但 teacher 的数据来源可以混合,一部分来自真实数据,一部分来自student自己采样的数据。文章目录note一、Generalized Kno原创 2026-01-03 15:17:24 · 433 阅读 · 0 评论 -
【LLM】MoE模型之LongCat-Flash模型
动态计算机制,根据上下文需求激活186亿至313亿参数(平均约270亿)LongCat-Flash 模型在架构层面引入“零计算专家(Zero-Computation Experts)”机制,总参数量 560 B,每个token 依据上下文需求仅激活 18.6B~31.3 B 参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用 PID 控制器实时微调专家偏置,将单 token 平均激活量稳定在约 27 B。文章目录note一、LongCat-Flash模型二、推理方案1、使用 MTP原创 2026-01-03 10:25:51 · 326 阅读 · 0 评论 -
【Agent】框架开发实践(AutoGen、AgentScope、CAMEL、LangGraph)
AutoGen 将复杂的协作抽象为一场由多角色参与的、可自动进行的“群聊”,其核心在于“以对话驱动协作”。AgentScope 则着眼于工业级应用的健壮性与可扩展性,为构建高并发、分布式的多智能体系统提供了坚实的工程基础。CAMEL 以其轻量级的“角色扮演”和“引导性提示”范式,展示了如何用最少的代码激发两个专家智能体之间深度、自主的协作。LangGraph 则回归到更底层的“状态机”模型,通过显式的图结构赋予开发者对工作流的精确控制,尤其是其循环能力,为构建可反思、可修正的智能体铺平了道路。文章目原创 2025-12-31 00:59:06 · 766 阅读 · 0 评论 -
【总结】山顶夕景2025年博客年度总结
2025年年度总结很难相信一年就这么过去了,很快又过得很充实,从年初deepseek火了一波后大家都进行复现,很多人利用GRPO训练think推理模型复现ds,再到后来年中各种RL算法遍地开花,比如DAPO、GSPO等;同时多模态大模型也发展很快,去年效果一般的视频生成模型在今年效果已经非常惊艳了,同时也有像阿里全模态qwen-omni这样的“全能”(还是偏多模态理解)的模型出现,给我们看到未来的无限可能。因为博客之星活动强行逼自己总结一下今年的创作和学习历程,大体可以分为以下几个模块:agent、R原创 2025-12-30 00:21:22 · 626 阅读 · 0 评论 -
【Agent】自动化深度研究智能体搭建
三个agent各司其职:TODO Planner(研究规划专家):负责将研究主题分解为子任务Task Summarizer(任务总结专家):负责总结每个子任务的搜索结果Report Writer(报告撰写专家):负责整合所有子任务的总结,生成最终报告四个核心服务,连接 Agent 和工具:PlanningService:调用规划 Agent,解析 JSON,验证格式SummarizationService:调用总结 Agent,处理搜索结果,提取来源ReportingService:调用报告原创 2025-12-28 16:31:06 · 721 阅读 · 0 评论 -
【Agent】智能体:在循环中自主调用工具的LLM
ReAct范式通过一种特殊的提示工程来引导模型,使其每一步的输出都遵循一个固定的轨迹。智能体将不断重复这个 Thought -> Action -> Observation 的循环,将新的观察结果追加到历史记录中,形成一个不断增长的上下文,直到它在Thought中认为已经找到了最终答案,然后输出结果。Thought (思考): 这是智能体的“内心独白”。它会分析当前情况、分解任务、制定下一步计划,或者反思上一步的结果。Action (行动): 这是智能体决定采取的具体动作,通常是调用一个外部工具,例如原创 2025-12-17 01:03:41 · 875 阅读 · 0 评论 -
【Agent】Evaluation and Benchmarking of LLM Agents: A Survey
一、论文想解决什么问题?(Why)核心问题二、论文的核心贡献(What)1️⃣ 提出一个 **二维评测分类体系(Taxonomy)**2️⃣ 系统梳理已有工作3️⃣ 明确指出 **企业级 Agent 评测的缺口**三、二维评测框架(核心)第一维:Evaluation Objectives(评什么)1️⃣ Agent Behavior(外在行为表现)2️⃣ Agent Capabilities(内部能力)• Tool Use(工具调用)• Planning & Reasoning(规划与原创 2025-12-13 23:20:44 · 736 阅读 · 0 评论 -
【LLM】Qwen-Agent框架使用和源码解读
Qwen-Agent是一个专门设计用于开发基于大型语言模型(LLM)的应用程序的框架。它不仅支持指令遵循、工具使用、规划和记忆能力,还能够处理从8K到100万tokens的文档,超越了传统长上下文模型的限制。这意味着开发者可以利用Qwen-Agent构建出能够理解和生成自然语言、执行复杂任务的智能代理应用。核心功能:更强的工具调用(Function Calling)能力:框架支持智能体自动调用外部工具或函数,包括内置的代码解释器、浏览器助手等,也支持开发者自定义工具,扩展智能体的能力。便捷的MCP原创 2025-12-07 21:46:39 · 624 阅读 · 0 评论 -
【VLM】vLLM-Omni多模态推理框架
今天的生成式模型已经远不止“文本输入、文本输出”:新的模型可以同时理解和生成文本、图像、音频、视频,背后也不再是单一自回归架构,而是由编码器、语言模型、扩散模型等异构组件拼接而成。随着模型进化为可以“看、听、说”的全能代理(omni agents),底层推理系统也不得不同时面对:真·全模态:一条请求里既有文本,又有图片、音频甚至视频,输出形式也不再单一。超越自回归:扩散 Transformer(Diffusion Transformer, DiT)等 并行生成模型 需要不同于 LLM 的调度和内存原创 2025-12-07 01:16:57 · 1019 阅读 · 0 评论 -
【LLM】使用DSA和改进GRPO的DeepSeek-V3.2模型
DSA 训练的两个阶段阶段一:Dense Warm-up先冻住主模型,只训练 Lightning Indexer训练目标是让 Indexer 的输出分布对齐主注意力的分布只训练了 1000 步,共 2.1B tokens阶段二:Sparse Training放开所有参数,让模型适应稀疏注意力模式继续用 KL 散度对齐 Indexer 和主注意力训练了 15000 步,共 943.7B tokens2、后训练第一步:专家蒸馏(Specialist Distillation)为每个任务原创 2025-12-07 00:50:43 · 612 阅读 · 0 评论 -
【LLM应用】Codex & Codex CLI使用
Codex & Codex CLI Codex Cli、对标 Claude Code适合:喜欢命令行、自动化脚本、批量处理任务。特点:轻量、快速、可集成 CI/CD。✅ 在您的 IDE 中尝试支持 VS Code、Cursor、Windsurf 等。特点:图形界面友好,适合日常开发、边写边问。适合:喜欢命令行、自动化脚本、批量处理任务。特点:轻量、快速、可集成 CI/CD。✅ 在您的 IDE 中尝试支持 VS Code、Cursor、Windsurf 等。特点:图形界面友好,适合日常原创 2025-12-06 18:55:59 · 338 阅读 · 0 评论 -
【LLM】Agentic RL入门和落地坑点
强化学习(Reinforcement Learning, RL)是一种专注于解决序贯决策问题的学习范式,它通过智能体与环境的直接交互,在"试错"中学习如何最大化长期收益。传统的监督学习方法存在三个核心局限:一是数据质量完全决定训练质量,模型只能模仿训练数据,难以超越;二是缺乏探索能力,只能被动学习人类提供的路径;三是难以优化长期目标,无法精确优化多步推理的中间过程。强化学习提供了新的可能性。通过让智能体自主生成多个候选答案并根据正确性获得奖励,它可以学习哪些推理路径更优、哪些步骤是关键,甚至发现比人类标原创 2025-11-30 16:05:49 · 935 阅读 · 0 评论 -
【LLM】DeepSeekMath-V2模型
研究问题:这篇文章要解决的问题是如何在大型语言模型(LLMs)中进行自我验证的数学推理。具体来说,现有的基于最终答案奖励的强化学习方法在数学推理中存在根本局限性,因为正确答案并不能保证推理的正确性,特别是在定理证明任务中。研究难点:该问题的研究难点包括:如何在不依赖最终答案的情况下验证推理的正确性;如何在生成和验证之间建立有效的迭代改进循环;如何在没有已知解决方案的开放问题上扩展测试时计算。相关工作:该问题的研究相关工作有:OpenAI的推理模型在定量推理竞赛中取得了显著进展;DeepMind的Deep原创 2025-11-29 08:57:12 · 1701 阅读 · 0 评论 -
【RL】Does RLVR enable LLMs to self-improve?
论文:Does RLVR enable LLMs to self-improve?研究问题:这篇文章探讨了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力,特别是是否超越了基础模型的推理能力。研究难点:该问题的研究难点包括:如何准确评估LLMs的推理能力边界,以及现有的RLVR方法是否能够引入新的推理模式。相关工作:该问题的研究相关工作包括OpenAI的o1模型、DeepSeek-R1等,这些工作展示了LLMs在复杂逻辑任务中的显著进步,但对其推理能力的提升机制尚不明确。(1)可验原创 2025-11-22 19:41:15 · 1303 阅读 · 0 评论 -
【MLLM】全模态Omni(nvidia/美团/蚂蚁)
OmniVinci使用OmniAlignNet:跨模态语义对齐网络。Temporal Embedding Grouping (TEG):时间嵌入分组机制LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力。Ming-flash-omni-Previ原创 2025-11-22 15:44:37 · 781 阅读 · 0 评论 -
【RL】Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
提出了监督强化学习(SRL)框架,通过将专家解决方案分解为可管理的步骤并提供密集的序列相似度奖励,显著提高了LLMs在复杂推理任务上的性能。实验结果表明,SRL不仅在数学推理和软件工程任务上优于基线方法,还能与RLVR结合形成强大的课程学习策略。SRL作为一种稳健且通用的技术,能够解锁模型从具有挑战性的多步问题中学习的能力,为训练更强大、更多功能的AI代理奠定了基础。SRL巧妙地融合了SFT和RL(hard reasoning problem难学会)的优点,它不再是僵硬地模仿整个轨迹,也不是盲目地等待最原创 2025-11-22 15:23:20 · 804 阅读 · 0 评论 -
【LLM-video】HunyuanVideo-1.5视频生成模型
视频超分辨率增强:开发了一个高效的几步超分辨率网络,将输出放大到1080p,增强了细节并纠正了失真。3、稀疏注意力优化:引入了一种新的SSTA(选择性滑动块注意力)机制,动态剪枝冗余的时空令牌,显著减少了长视频序列的计算开销并加速了推理。4、增强的多模态理解:框架使用了一个大型多模态模型进行精确的双语(中文-英文)理解,结合了ByT5进行专门的字形编码,以增强视频中文本生成的准确性。5、端到端训练优化:展示了Muon优化器在视频生成模型训练中显著加速收敛,同时多阶段渐进训练策略从预训练到后训练阶原创 2025-11-22 13:53:48 · 1022 阅读 · 0 评论 -
【RL】KTO: Model Alignment as Prospect Theoretic Optimization
研究问题:这篇文章要解决的问题是如何更好地对齐大型语言模型(LLMs)与人类反馈,以提高生成内容的有用性、事实性和伦理性。研究难点:该问题的研究难点包括:人类反馈通常以偏好形式出现,而偏好数据稀缺且昂贵;现有的对齐方法在处理大规模模型时存在性能和稳定性问题。相关工作:该问题的研究相关工作有:RLHF、DPO等基于偏好的对齐方法,以及条件SFT、序列似然校准等非基于偏好的对齐方法。二、研究方法这篇论文提出了一种新的对齐方法,称为Kahneman-Tversky优化(KTO),用于解决LLMs与人类反原创 2025-11-16 23:02:49 · 1047 阅读 · 0 评论 -
【RL】ORPO: Monolithic Preference Optimization without Reference Model
本文提出了一种无需参考模型的单片赔率比率偏好优化算法(ORPO),通过重新审视和理解监督微调(SFT)在偏好对齐中的作用,实现了高效的偏好对齐。ORPO在不同规模的预训练语言模型上均表现出色,超越了现有的较大指令跟随语言模型。实验结果表明,ORPO在指令跟随、奖励模型胜率和词汇多样性方面均取得了显著的提升。ORPO 的目标函数巧妙地结合了传统的监督微调损失和一个新提出的相对比率损失。LORPO=E(x,yw,yl)[LSFT+λ⋅LOR]L ORPO原创 2025-11-16 22:46:46 · 1118 阅读 · 0 评论 -
【RL-LLM】Self-Rewarding Language Models
Self-Rewarding Language Models- 研究问题:这篇文章要解决的问题是如何通过自我奖励的语言模型(Self-Rewarding Language Models)来实现超人类智能代理。具体来说,现有的方法通常依赖于人类偏好数据来训练奖励模型,然后使用这些模型来训练大型语言模型(LLM),但这种方法存在瓶颈,即人类偏好数据的大小和质量限制。- 研究难点:该问题的研究难点包括:人类偏好数据的质量和数量限制;奖励模型的固定性无法在LLM训练过程中进行改进;如何在不增加外部数据的情况下原创 2025-11-16 22:30:23 · 1188 阅读 · 1 评论 -
【RL】REINFORCE Leave-One-Out (RLOO)
REINFORCE Leave-One-Out (RLOO) 基于经典的 REINFORCE 策略梯度方法,通过留一法(Leave-One-Out)构造无偏的优势函数基线。我们基于 GRPO(Group Relative Policy Optimization)算法进行对比说明。GRPO vs RLOO 的主要区别GRPO 和 RLOO 都采用组内对比的方式来估计优势函数,避免了全局基线估计带来的高方差问题。两者的核心区别主要体现在以下两个方面:区别1:优势函数基线的构造方法1. GRPO原创 2025-11-12 01:24:48 · 994 阅读 · 0 评论 -
【RL】CHORD框架实现SFT和RL的统一
On-Policy RL Meets Off-Policy Experts: Harmonizing SFT and RL via Dynamic Weighting研究问题:这篇文章要解决的问题是如何在监督微调(SFT)和强化学习(RL)之间实现有效的统一,以提升大型语言模型(LLMs)的性能。现有的SFT和RL结合方法往往会导致模型模式被破坏和过拟合专家数据的风险。研究难点:该问题的研究难点包括:如何在SFT和RL之间实现平稳过渡,避免模型模式被破坏;如何有效地利用专家数据进行训练,同时保持模型的原创 2025-11-12 01:08:25 · 1006 阅读 · 0 评论 -
【RLVR】A Survey of Reinforcement Learning for Large Reasoning Models
A Survey of Reinforcement Learning for Large Reasoning Models大型推理模型强化学习综述研究问题:这篇文章要解决的问题是如何在大规模语言模型(LLMs)中使用强化学习(RL)来提升推理能力,特别是处理复杂逻辑任务如数学和编程问题。研究难点:该问题的研究难点包括计算资源的需求、算法设计、训练数据和基础设施的挑战。相关工作:该问题的研究相关工作包括AlphaGo和AlphaZero等系统的成功应用,这些系统通过自我对弈和奖励反馈达到了超越人类水原创 2025-11-10 00:35:14 · 1119 阅读 · 0 评论 -
【LLM】SmolLM3模型训练手册
RLVR强化学习Reinforcement Learning with Verifiable Rewards (RLVR)基于 RL 的训练的效率和稳定性在很大程度上取决于学习算法是on-policy还是off-policy。GRPO 等方法通常属于on-policy算法类别,其中生成完成的模型(策略)与被优化的模型相同。虽然 GRPO 是一种on-policy的算法,但也有一些注意事项。首先,为了优化生成步骤,可以对几批代进行采样,然后 k 对模型进行更新,第一批是on-policy的,接下来的几原创 2025-11-09 23:19:33 · 1071 阅读 · 0 评论 -
【LLM-RL】以信息熵的角度理解RL
为啥会发生熵崩溃为什么会发生“熵崩溃”?论文从数学上给出了一个解释。作者推导出,策略熵的变化与一个关键因素——动作概率和优势函数(Advantage)的协方差——有关(反比关系)。原文中的公式比较复杂,感兴趣的读者可以自行拜读。这里提供一个通俗易懂的说法(在数学上不一定严谨)。简单来说:• 当模型选择一个高概率的动作(token),而这个动作又带来了高奖励(高Advantage)时,强化学习算法会大力强化这个选择。• 这种“强强联合”的更新,会导致这个高概率动作的概率变得更高,其他动作的概率被压制,原创 2025-11-03 00:08:21 · 919 阅读 · 1 评论 -
【RL】Scaling RL Compute for LLMs | JustRL 1.5b
ScaleRL配方中包含了哪些关键技术选择?这些选择是如何影响渐近性能和计算效率的?异步Pipeline-RL设置:提高训练稳定性和效率。强制长度中断:防止推理输出长度爆炸,提高训练稳定性。截断的重要性采样RL损失(CISPO):提高渐近性能。提示级损失平均:优化损失聚合方式,提高计算效率。批次级优势归一化:提高计算效率。FP32精度在logits:减少数值不匹配,提高渐近性能。零方差过滤:排除贡献为零的提示,提高计算效率。无正原创 2025-11-02 22:52:41 · 943 阅读 · 0 评论 -
【LLM】大模型Mid-Training训练综述
中期训练技术总结,Mid-Training of Large Language Models: A Survey链接:https://arxiv.org/pdf/2510.06826,例如:MiniCPM中期训练使用20Btokens,混合预训练数据与高价值SFT数据(如SlimOrca、EvolInstruct),上采样推理/编码数据;Qwen3三阶段预训练,中期阶段(第二阶段)用5T高质量4K序列tokens,增加STEM(科学、技术、工程、数学)、编码、推理数据占比,第三阶段用数百亿tok原创 2025-11-02 01:20:59 · 822 阅读 · 0 评论 -
【LLM-Agent】七种agent协作模式
7种智能体(Agent)协作模式并行模式(Parallel):每个智能体负责处理不同的子任务,例如数据提取、网页检索和内容摘要,它们的输出会整合为一个统一结果。该模式非常适合在文档解析、API 编排等高通量流程中降低延迟;串行模式(Sequential):每个智能体逐步为任务增值,例如一个智能体生成代码、另一个进行审核、第三个负责部署。在工作流自动化、ETL(抽取 - 转换 - 加载)链路以及多步骤推理流程中,常能见到这种模式的应用;循环模式(Loop):智能体会持续优化自身输出,直到达到预期质量原创 2025-11-01 17:33:42 · 376 阅读 · 0 评论 -
【RL】DAPO的后续:VAPO算法
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks1、研究背景研究问题:这篇文章要解决的问题是如何在长链推理任务(long chain-of-thought reasoning)中提高基于价值模型的强化学习(RL)方法的效率和可靠性。研究难点:该问题的研究难点包括:价值模型偏差、异构序列长度、奖励信号稀疏性。相关工作:该问题的研究相关工作有:OpenAI O1、DeepSeek原创 2025-10-18 16:22:05 · 773 阅读 · 0 评论 -
【LLM】字节的DAPO强化学习算法
提出了DAPO算法,包含四个关键技术:Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss和Overlong Reward Shaping。Clip-Higher:通过解耦上下剪切范围(ε low 和ε high ),提高低概率探索令牌的概率增加空间,增强策略的多样性和熵。Dynamic Sampling:通过过采样和过滤掉准确率为0和1的提示,确保每个批次中的提示都有有效的梯度,减少梯度信号的方差。Token原创 2025-10-18 16:15:46 · 1085 阅读 · 1 评论 -
【LLM】强化学习TTRL: Test-Time Reinforcement Learning
TTRL实验设计模型选择:实验使用了多个模型家族的不同规模和类型的模型,包括Qwen家族、LLaMA家族、Mistral家族、DeepSeek家族和其他模型。基准测试:在GPQA-Diamond、AIME 2024、AMC和MATH-500等基准上进行评估。评估设置:采用pass@k评估协议,设置最大生成长度为3072个令牌(除特别指定外)。对于主要实验,生成16个响应(对于32k上下文为4个响应),并使用温度0.6和非零温度采样计算pass@1分数。原创 2025-10-18 16:08:25 · 944 阅读 · 0 评论 -
【LLM】大模型vibe coding(cursor、copilot、comate)
选对工具,谋定而后动• 新手和老手选择不同:如果你是编程新手,可以从 Replit 或 Lovable 这类可视化工具入手,它们能让你快速搭建界面。但文章指出,当你需要更精细地控制后端逻辑时,这类工具可能力不从心。如果你有基础,那么像 Cursor 或 Claude Code 这类更专业的编码AI工具会是更好的选择,它们提供更精准的控制。• 别直接写代码,先做计划:这是最重要的建议之一。不要一上来就让AI直接生成代码,而是应该先和AI一起制定一份详细的开发计划,就像建筑蓝图一样。把这份计划保存在项目里原创 2025-10-08 19:12:53 · 1170 阅读 · 3 评论 -
【LLM】ms-Swift大模型训练框架源码分析
ms-Swift整体调用链SFT流程:swift sft → sft_main() → SwiftSft(args).main() → run() → train(trainer) → trainer.train(…)swift 可执行程序(console-script)→ swift/cli/sft.py(CLI 子命令入口,基本就把参数解析后转给 sft_main)→ swift/llm/train/sft.py(核心业务:构造 SwiftSft/Trainer、加载模型&数据、开训)→ s原创 2025-10-08 18:48:18 · 1227 阅读 · 0 评论 -
【LLM】知识图谱和LLM的结合
知识图谱的构建## 1、金融领域【金融领域知识图谱构建进展】FinKario: Event-Enhanced Automated Construction of Financial Knowledge Graph,https://arxiv.org/pdf/2508.00961,FinKario:事件增强型金融知识图谱与检索框架,核心看知识图谱构建思路:从东方财富网收集研报(2024.8-2025.2),用 MinerU 工具转标准化 Markdown(去除免责声明、图片、重复法律声明等冗余内容,保留核原创 2025-10-08 15:59:47 · 1060 阅读 · 0 评论 -
【MLLM】Qwen3-Omni全模态模型源码解读
note一、模型回顾二、源码解读1、一句话总览2、目录里各文件是干嘛的1) `processing_qwen3_omni_moe.py` :统一的多模态 Processor2) `modeling_qwen3_omni_moe.py` :核心模型拼装3) `configuration_qwen3_omni_moe.py`:配置3、完整调用链三、相关问题四、整体的设计思想Reference一、模型回顾模型架构:音频编码:模型的音频编码器采用基于 2000 万小时数据训练的 AuT原创 2025-10-06 21:54:08 · 1736 阅读 · 0 评论 -
【LLM】Qwen-Agent框架使用和源码解读
核心功能:函数调用、代码解释器、多模态处理、记忆能力Qwen-Agent接入MCP的原理采用stdio开发模式,将mcp服务作为Qwen-Agent应用的子进程, Qwen-Agent作为客户端与子进程服务通信。文章目录note一、Qwen-Agent框架1、框架介绍2、相关实践和应用场景二、MCP的使用栗子1、sqlite数据库小助手2、旅行规划3、思维导图生成三、Qwen-Agent框架源码解读1、整体架构图2、函数调用和工具集成3、RAG 和内存系统4、多代理协调其他:转载 2025-09-21 17:41:39 · 976 阅读 · 0 评论
分享