自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1336)
  • 资源 (4)
  • 收藏
  • 关注

原创 【LLM】多模态LLM综述MultiModal Large Language Models

note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In

2024-06-02 13:05:46 5017 8

原创 【论文笔记】GraphSAGE:Inductive Representation Learning on Large Graphs(NIPS)

- GCN不能泛化到训练过程中没有出现的节点(即属于 $transductive$ 直推式学习,若加入新节点则需要重新训练模型),既然有新增的结点(一定会改变原有节点),那就没必要一定得到每个节点的固定表示。而GraphSAGE就是为了解决这种问题,利用Sample(采样)和Aggregate(聚合)两大核心步骤,通过利用学习到的聚合函数,得到一个新节点的表示。- 本文先介绍GraphSAGE向前传播过程(生成节点embedding),不同的聚合函数设定,然后介绍无监督学习和有监督学习的损失函数和参数学习

2021-10-06 21:11:58 2418 13

原创 【Agent】Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

这篇论文提出的ACE框架通过生成、反射和整理的结构化工作流程,有效地解决了简洁偏差和上下文坍塌问题。ACE在代理和特定领域基准测试中均表现出色,显著提高了模型性能,同时降低了适应延迟和成本。ACE的成功展示了全面、不断发展的上下文在构建可扩展、高效和自改进的LLM系统中的潜力。- 当前主流 prompt / memory / reflection 方法的两个系统性缺陷: - Brevity Bias(“越改越短”偏置):压缩成为通用的废话 - Context Collapse(上下文坍缩):有时压缩过

2026-01-07 21:48:02 567

原创 【Agent】基于multi-agent的智能旅行助手

一、智能旅行助手需求需求:个性化的旅行规划制定,需要在网上搜索景点信息,对比不同的攻略,查看天气预报,预订酒店,计算预算,规划路线。这个智能旅行助手项目的功能如下:(1)智能行程规划:用户输入目的地、日期、偏好等信息,系统自动生成包含景点、餐饮、酒店的完整行程计划。(2)地图可视化:在地图上标注景点位置、绘制游览路线,让行程一目了然。(3)预算计算:自动计算门票、酒店、餐饮、交通费用,显示预算明细。(4)行程编辑:支持添加、删除、调整景点,实时更新地图。(5)导出功能:支持导出为 PDF 或

2026-01-04 20:44:22 1002

原创 【KD】Generalized Knowledge Distillation和On-Policy Distillation

传统 KD:教师模型生成一些训练输出,生模型模仿这些输出。GKD(广义 KD):学生模型先自己生成一些序列,然后用教师模型对这些学生生成的序列进行打分或提供反馈,学生模型基于这些反馈进一步调整自己。这可以更好解决“训练时只学教师输出,而测试时要靠自己生成输出”之间的分布不一致问题。GKD = 用 teacher 的“软分布”监督 student,但 teacher 的数据来源可以混合,一部分来自真实数据,一部分来自student自己采样的数据。文章目录note一、Generalized Kno

2026-01-03 15:17:24 932 1

原创 【LLM】MoE模型之LongCat-Flash模型

动态计算机制,根据上下文需求激活186亿至313亿参数(平均约270亿)LongCat-Flash 模型在架构层面引入“零计算专家(Zero-Computation Experts)”机制,总参数量 560 B,每个token 依据上下文需求仅激活 18.6B~31.3 B 参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用 PID 控制器实时微调专家偏置,将单 token 平均激活量稳定在约 27 B。文章目录note一、LongCat-Flash模型二、推理方案1、使用 MTP

2026-01-03 10:25:51 703

原创 【Agent】框架开发实践(AutoGen、AgentScope、CAMEL、LangGraph)

AutoGen 将复杂的协作抽象为一场由多角色参与的、可自动进行的“群聊”,其核心在于“以对话驱动协作”。AgentScope 则着眼于工业级应用的健壮性与可扩展性,为构建高并发、分布式的多智能体系统提供了坚实的工程基础。CAMEL 以其轻量级的“角色扮演”和“引导性提示”范式,展示了如何用最少的代码激发两个专家智能体之间深度、自主的协作。LangGraph 则回归到更底层的“状态机”模型,通过显式的图结构赋予开发者对工作流的精确控制,尤其是其循环能力,为构建可反思、可修正的智能体铺平了道路。文章目

2025-12-31 00:59:06 779

原创 【总结】山顶夕景2025年LLM大模型年度总结

2025年年度总结很难相信一年就这么过去了,很快又过得很充实,从年初deepseek火了一波后大家都进行复现,很多人利用GRPO训练think推理模型复现ds,再到后来年中各种RL算法遍地开花,比如DAPO、GSPO等;同时多模态大模型也发展很快,去年效果一般的视频生成模型在今年效果已经非常惊艳了,同时也有像阿里全模态qwen-omni这样的“全能”(还是偏多模态理解)的模型出现,给我们看到未来的无限可能。因为博客之星活动强行逼自己总结一下今年的创作和学习历程,大体可以分为以下几个模块:agent、R

2025-12-30 00:21:22 833 5

原创 【Agent】自动化深度研究智能体搭建

三个agent各司其职:TODO Planner(研究规划专家):负责将研究主题分解为子任务Task Summarizer(任务总结专家):负责总结每个子任务的搜索结果Report Writer(报告撰写专家):负责整合所有子任务的总结,生成最终报告四个核心服务,连接 Agent 和工具:PlanningService:调用规划 Agent,解析 JSON,验证格式SummarizationService:调用总结 Agent,处理搜索结果,提取来源ReportingService:调用报告

2025-12-28 16:31:06 738

原创 【Agent】智能体:在循环中自主调用工具的LLM

ReAct范式通过一种特殊的提示工程来引导模型,使其每一步的输出都遵循一个固定的轨迹。智能体将不断重复这个 Thought -> Action -> Observation 的循环,将新的观察结果追加到历史记录中,形成一个不断增长的上下文,直到它在Thought中认为已经找到了最终答案,然后输出结果。Thought (思考): 这是智能体的“内心独白”。它会分析当前情况、分解任务、制定下一步计划,或者反思上一步的结果。Action (行动): 这是智能体决定采取的具体动作,通常是调用一个外部工具,例如

2025-12-17 01:03:41 905

原创 【Agent】Evaluation and Benchmarking of LLM Agents: A Survey

一、论文想解决什么问题?(Why)核心问题二、论文的核心贡献(What)1️⃣ 提出一个 **二维评测分类体系(Taxonomy)**2️⃣ 系统梳理已有工作3️⃣ 明确指出 **企业级 Agent 评测的缺口**三、二维评测框架(核心)第一维:Evaluation Objectives(评什么)1️⃣ Agent Behavior(外在行为表现)2️⃣ Agent Capabilities(内部能力)• Tool Use(工具调用)• Planning & Reasoning(规划与

2025-12-13 23:20:44 750

原创 【LLM】Qwen-Agent框架使用和源码解读

Qwen-Agent是一个专门设计用于开发基于大型语言模型(LLM)的应用程序的框架。它不仅支持指令遵循、工具使用、规划和记忆能力,还能够处理从8K到100万tokens的文档,超越了传统长上下文模型的限制。这意味着开发者可以利用Qwen-Agent构建出能够理解和生成自然语言、执行复杂任务的智能代理应用。核心功能:更强的工具调用(Function Calling)能力:框架支持智能体自动调用外部工具或函数,包括内置的代码解释器、浏览器助手等,也支持开发者自定义工具,扩展智能体的能力。便捷的MCP

2025-12-07 21:46:39 629

原创 【VLM】vLLM-Omni多模态推理框架

今天的生成式模型已经远不止“文本输入、文本输出”:新的模型可以同时理解和生成文本、图像、音频、视频,背后也不再是单一自回归架构,而是由编码器、语言模型、扩散模型等异构组件拼接而成。随着模型进化为可以“看、听、说”的全能代理(omni agents),底层推理系统也不得不同时面对:真·全模态:一条请求里既有文本,又有图片、音频甚至视频,输出形式也不再单一。超越自回归:扩散 Transformer(Diffusion Transformer, DiT)等 并行生成模型 需要不同于 LLM 的调度和内存

2025-12-07 01:16:57 1035

原创 【LLM】使用DSA和改进GRPO的DeepSeek-V3.2模型

DSA 训练的两个阶段阶段一:Dense Warm-up先冻住主模型,只训练 Lightning Indexer训练目标是让 Indexer 的输出分布对齐主注意力的分布只训练了 1000 步,共 2.1B tokens阶段二:Sparse Training放开所有参数,让模型适应稀疏注意力模式继续用 KL 散度对齐 Indexer 和主注意力训练了 15000 步,共 943.7B tokens2、后训练第一步:专家蒸馏(Specialist Distillation)为每个任务

2025-12-07 00:50:43 623

原创 【LLM应用】Codex & Codex CLI使用

Codex & Codex CLI Codex Cli、对标 Claude Code适合:喜欢命令行、自动化脚本、批量处理任务。特点:轻量、快速、可集成 CI/CD。✅ 在您的 IDE 中尝试支持 VS Code、Cursor、Windsurf 等。特点:图形界面友好,适合日常开发、边写边问。适合:喜欢命令行、自动化脚本、批量处理任务。特点:轻量、快速、可集成 CI/CD。✅ 在您的 IDE 中尝试支持 VS Code、Cursor、Windsurf 等。特点:图形界面友好,适合日常

2025-12-06 18:55:59 348

原创 【LLM】Agentic RL入门和落地坑点

强化学习(Reinforcement Learning, RL)是一种专注于解决序贯决策问题的学习范式,它通过智能体与环境的直接交互,在"试错"中学习如何最大化长期收益。传统的监督学习方法存在三个核心局限:一是数据质量完全决定训练质量,模型只能模仿训练数据,难以超越;二是缺乏探索能力,只能被动学习人类提供的路径;三是难以优化长期目标,无法精确优化多步推理的中间过程。强化学习提供了新的可能性。通过让智能体自主生成多个候选答案并根据正确性获得奖励,它可以学习哪些推理路径更优、哪些步骤是关键,甚至发现比人类标

2025-11-30 16:05:49 960

原创 【LLM】DeepSeekMath-V2模型

研究问题:这篇文章要解决的问题是如何在大型语言模型(LLMs)中进行自我验证的数学推理。具体来说,现有的基于最终答案奖励的强化学习方法在数学推理中存在根本局限性,因为正确答案并不能保证推理的正确性,特别是在定理证明任务中。研究难点:该问题的研究难点包括:如何在不依赖最终答案的情况下验证推理的正确性;如何在生成和验证之间建立有效的迭代改进循环;如何在没有已知解决方案的开放问题上扩展测试时计算。相关工作:该问题的研究相关工作有:OpenAI的推理模型在定量推理竞赛中取得了显著进展;DeepMind的Deep

2025-11-29 08:57:12 1713

原创 【RL】Does RLVR enable LLMs to self-improve?

论文:Does RLVR enable LLMs to self-improve?研究问题:这篇文章探讨了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力,特别是是否超越了基础模型的推理能力。研究难点:该问题的研究难点包括:如何准确评估LLMs的推理能力边界,以及现有的RLVR方法是否能够引入新的推理模式。相关工作:该问题的研究相关工作包括OpenAI的o1模型、DeepSeek-R1等,这些工作展示了LLMs在复杂逻辑任务中的显著进步,但对其推理能力的提升机制尚不明确。(1)可验

2025-11-22 19:41:15 1306

原创 【LLM】谷歌Gemini 3模型简介

特点:- 多模态理解:不仅理解文字,也能处理图像、甚至视频/音频数据。举例:能看一张图像、理解内容,再结合文字生成答案。- 更强的推理能力:在诸多基准测试(benchmarks)上取得了较前代大幅提升。比如官方提到 “PhD 水平的推理” 等。- 工具/代理能力更强:在企业/开发者场景里,它不仅做“问答”,还能调用工具、做流程、做自动化任务。- 可用性面向企业/开发者推出:例如通过 Gemini Code Assist 在 VS Code/IntelliJ 插件中启用 Gemini 3应用场景:

2025-11-22 18:52:58 551

原创 【MLLM】全模态Omni(nvidia/美团/蚂蚁)

OmniVinci使用OmniAlignNet:跨模态语义对齐网络。Temporal Embedding Grouping (TEG):时间嵌入分组机制LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力。Ming-flash-omni-Previ

2025-11-22 15:44:37 791

原创 【RL】Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

提出了监督强化学习(SRL)框架,通过将专家解决方案分解为可管理的步骤并提供密集的序列相似度奖励,显著提高了LLMs在复杂推理任务上的性能。实验结果表明,SRL不仅在数学推理和软件工程任务上优于基线方法,还能与RLVR结合形成强大的课程学习策略。SRL作为一种稳健且通用的技术,能够解锁模型从具有挑战性的多步问题中学习的能力,为训练更强大、更多功能的AI代理奠定了基础。SRL巧妙地融合了SFT和RL(hard reasoning problem难学会)的优点,它不再是僵硬地模仿整个轨迹,也不是盲目地等待最

2025-11-22 15:23:20 810

原创 【LLM-video】HunyuanVideo-1.5视频生成模型

视频超分辨率增强:开发了一个高效的几步超分辨率网络,将输出放大到1080p,增强了细节并纠正了失真。3、稀疏注意力优化:引入了一种新的SSTA(选择性滑动块注意力)机制,动态剪枝冗余的时空令牌,显著减少了长视频序列的计算开销并加速了推理。4、增强的多模态理解:框架使用了一个大型多模态模型进行精确的双语(中文-英文)理解,结合了ByT5进行专门的字形编码,以增强视频中文本生成的准确性。5、端到端训练优化:展示了Muon优化器在视频生成模型训练中显著加速收敛,同时多阶段渐进训练策略从预训练到后训练阶

2025-11-22 13:53:48 1033

原创 【RL】KTO: Model Alignment as Prospect Theoretic Optimization

研究问题:这篇文章要解决的问题是如何更好地对齐大型语言模型(LLMs)与人类反馈,以提高生成内容的有用性、事实性和伦理性。研究难点:该问题的研究难点包括:人类反馈通常以偏好形式出现,而偏好数据稀缺且昂贵;现有的对齐方法在处理大规模模型时存在性能和稳定性问题。相关工作:该问题的研究相关工作有:RLHF、DPO等基于偏好的对齐方法,以及条件SFT、序列似然校准等非基于偏好的对齐方法。二、研究方法这篇论文提出了一种新的对齐方法,称为Kahneman-Tversky优化(KTO),用于解决LLMs与人类反

2025-11-16 23:02:49 1053

原创 【RL】ORPO: Monolithic Preference Optimization without Reference Model

本文提出了一种无需参考模型的单片赔率比率偏好优化算法(ORPO),通过重新审视和理解监督微调(SFT)在偏好对齐中的作用,实现了高效的偏好对齐。ORPO在不同规模的预训练语言模型上均表现出色,超越了现有的较大指令跟随语言模型。实验结果表明,ORPO在指令跟随、奖励模型胜率和词汇多样性方面均取得了显著的提升。ORPO 的目标函数巧妙地结合了传统的监督微调损失和一个新提出的相对比率损失。LORPO=E(x,yw,yl)[LSFT+λ⋅LOR]L ORPO​

2025-11-16 22:46:46 1124

原创 【RL-LLM】Self-Rewarding Language Models

Self-Rewarding Language Models- 研究问题:这篇文章要解决的问题是如何通过自我奖励的语言模型(Self-Rewarding Language Models)来实现超人类智能代理。具体来说,现有的方法通常依赖于人类偏好数据来训练奖励模型,然后使用这些模型来训练大型语言模型(LLM),但这种方法存在瓶颈,即人类偏好数据的大小和质量限制。- 研究难点:该问题的研究难点包括:人类偏好数据的质量和数量限制;奖励模型的固定性无法在LLM训练过程中进行改进;如何在不增加外部数据的情况下

2025-11-16 22:30:23 1195 3

原创 【RL】REINFORCE Leave-One-Out (RLOO)

REINFORCE Leave-One-Out (RLOO) 基于经典的 REINFORCE 策略梯度方法,通过留一法(Leave-One-Out)构造无偏的优势函数基线。我们基于 GRPO(Group Relative Policy Optimization)算法进行对比说明。GRPO vs RLOO 的主要区别GRPO 和 RLOO 都采用组内对比的方式来估计优势函数,避免了全局基线估计带来的高方差问题。两者的核心区别主要体现在以下两个方面:区别1:优势函数基线的构造方法1. GRPO

2025-11-12 01:24:48 1002

原创 【RL】CHORD框架实现SFT和RL的统一

On-Policy RL Meets Off-Policy Experts: Harmonizing SFT and RL via Dynamic Weighting研究问题:这篇文章要解决的问题是如何在监督微调(SFT)和强化学习(RL)之间实现有效的统一,以提升大型语言模型(LLMs)的性能。现有的SFT和RL结合方法往往会导致模型模式被破坏和过拟合专家数据的风险。研究难点:该问题的研究难点包括:如何在SFT和RL之间实现平稳过渡,避免模型模式被破坏;如何有效地利用专家数据进行训练,同时保持模型的

2025-11-12 01:08:25 1015

原创 【RLVR】A Survey of Reinforcement Learning for Large Reasoning Models

A Survey of Reinforcement Learning for Large Reasoning Models大型推理模型强化学习综述研究问题:这篇文章要解决的问题是如何在大规模语言模型(LLMs)中使用强化学习(RL)来提升推理能力,特别是处理复杂逻辑任务如数学和编程问题。研究难点:该问题的研究难点包括计算资源的需求、算法设计、训练数据和基础设施的挑战。相关工作:该问题的研究相关工作包括AlphaGo和AlphaZero等系统的成功应用,这些系统通过自我对弈和奖励反馈达到了超越人类水

2025-11-10 00:35:14 1128

原创 【LLM】SmolLM3模型训练手册

RLVR强化学习Reinforcement Learning with Verifiable Rewards (RLVR)基于 RL 的训练的效率和稳定性在很大程度上取决于学习算法是on-policy还是off-policy。GRPO 等方法通常属于on-policy算法类别,其中生成完成的模型(策略)与被优化的模型相同。虽然 GRPO 是一种on-policy的算法,但也有一些注意事项。首先,为了优化生成步骤,可以对几批代进行采样,然后 k 对模型进行更新,第一批是on-policy的,接下来的几

2025-11-09 23:19:33 1080

原创 【RLVR】GRPO中奖励函数的设计逻辑

GRPO中常见的奖励函数设计## 1、DeepSeek-R1(数学推理)1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning奖励函数:* 格式正确性:如思考链在`<think>`和`</think>`之间等* 内容正确性:可行性验证,数学运算/代码运行正确等## 2、DeepTrans(翻译)翻译大模型(wechat微信)DeepTrans: Deep Reasoning T

2025-11-08 16:27:31 873

原创 【LLM-RL】以信息熵的角度理解RL

为啥会发生熵崩溃为什么会发生“熵崩溃”?论文从数学上给出了一个解释。作者推导出,策略熵的变化与一个关键因素——动作概率和优势函数(Advantage)的协方差——有关(反比关系)。原文中的公式比较复杂,感兴趣的读者可以自行拜读。这里提供一个通俗易懂的说法(在数学上不一定严谨)。简单来说:• 当模型选择一个高概率的动作(token),而这个动作又带来了高奖励(高Advantage)时,强化学习算法会大力强化这个选择。• 这种“强强联合”的更新,会导致这个高概率动作的概率变得更高,其他动作的概率被压制,

2025-11-03 00:08:21 933 2

原创 【RL】Scaling RL Compute for LLMs | JustRL 1.5b

ScaleRL配方中包含了哪些关键技术选择?这些选择是如何影响渐近性能和计算效率的?​​​​异步Pipeline-RL设置​​:提高训练稳定性和效率。​​强制长度中断​​:防止推理输出长度爆炸,提高训练稳定性。​​截断的重要性采样RL损失(CISPO)​​:提高渐近性能。​​提示级损失平均​​:优化损失聚合方式,提高计算效率。​​批次级优势归一化​​:提高计算效率。​​FP32精度在logits​​:减少数值不匹配,提高渐近性能。​​零方差过滤​​:排除贡献为零的提示,提高计算效率。​​无正

2025-11-02 22:52:41 961

原创 【LLM】大模型Mid-Training训练综述

中期训练技术总结,Mid-Training of Large Language Models: A Survey链接:https://arxiv.org/pdf/2510.06826,例如:MiniCPM中期训练使用20Btokens,混合预训练数据与高价值SFT数据(如SlimOrca、EvolInstruct),上采样推理/编码数据;Qwen3三阶段预训练,中期阶段(第二阶段)用5T高质量4K序列tokens,增加STEM(科学、技术、工程、数学)、编码、推理数据占比,第三阶段用数百亿tok

2025-11-02 01:20:59 834

原创 【LLM-Agent】七种agent协作模式

7种智能体(Agent)协作模式并行模式(Parallel):每个智能体负责处理不同的子任务,例如数据提取、网页检索和内容摘要,它们的输出会整合为一个统一结果。该模式非常适合在文档解析、API 编排等高通量流程中降低延迟;串行模式(Sequential):每个智能体逐步为任务增值,例如一个智能体生成代码、另一个进行审核、第三个负责部署。在工作流自动化、ETL(抽取 - 转换 - 加载)链路以及多步骤推理流程中,常能见到这种模式的应用;循环模式(Loop):智能体会持续优化自身输出,直到达到预期质量

2025-11-01 17:33:42 387

原创 【RL】DAPO的后续:VAPO算法

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks1、研究背景研究问题​​:这篇文章要解决的问题是如何在长链推理任务(long chain-of-thought reasoning)中提高基于价值模型的强化学习(RL)方法的效率和可靠性。研究难点​​:该问题的研究难点包括:价值模型偏差、异构序列长度、奖励信号稀疏性。相关工作​​:该问题的研究相关工作有:OpenAI O1、DeepSeek

2025-10-18 16:22:05 778

原创 【LLM】字节的DAPO强化学习算法

提出了DAPO算法,包含四个关键技术:Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss和Overlong Reward Shaping。​​Clip-Higher​​:通过解耦上下剪切范围(ε low 和ε high ),提高低概率探索令牌的概率增加空间,增强策略的多样性和熵。​​Dynamic Sampling​​:通过过采样和过滤掉准确率为0和1的提示,确保每个批次中的提示都有有效的梯度,减少梯度信号的方差。​​Token

2025-10-18 16:15:46 1104 1

原创 【LLM】强化学习TTRL: Test-Time Reinforcement Learning

TTRL实验设计模型选择​​:实验使用了多个模型家族的不同规模和类型的模型,包括Qwen家族、LLaMA家族、Mistral家族、DeepSeek家族和其他模型。​​基准测试​​:在GPQA-Diamond、AIME 2024、AMC和MATH-500等基准上进行评估。评估设置​​:采用pass@k评估协议,设置最大生成长度为3072个令牌(除特别指定外)。对于主要实验,生成16个响应(对于32k上下文为4个响应),并使用温度0.6和非零温度采样计算pass@1分数。

2025-10-18 16:08:25 948

原创 【LLM】VeRL训练框架源码分析

「VeRL(Volcano Engine Reinforcement Learning for LLMs)」VeRL 是什么开源的 LLM 后训练(RL/RLHF/RLAIF)框架,由字节 Doubao/Seed 团队主导。它把算法流和分布式执行解耦,既能像写“数据流”一样拼装 RL 步骤,又能在多种训练/推理引擎上高效跑(FSDP、Megatron-LM、vLLM、SGLang 等)。官方称相较已有系统在多种 RLHF 算法上可达 1.53×–20.57× 吞吐提升(论文实验)。(GitHub)

2025-10-08 21:40:02 1574

原创 【LLM】大模型vibe coding(cursor、copilot、comate)

选对工具,谋定而后动• 新手和老手选择不同:如果你是编程新手,可以从 Replit 或 Lovable 这类可视化工具入手,它们能让你快速搭建界面。但文章指出,当你需要更精细地控制后端逻辑时,这类工具可能力不从心。如果你有基础,那么像 Cursor 或 Claude Code 这类更专业的编码AI工具会是更好的选择,它们提供更精准的控制。• 别直接写代码,先做计划:这是最重要的建议之一。不要一上来就让AI直接生成代码,而是应该先和AI一起制定一份详细的开发计划,就像建筑蓝图一样。把这份计划保存在项目里

2025-10-08 19:12:53 1182 4

原创 【LLM】ms-Swift大模型训练框架源码分析

ms-Swift整体调用链SFT流程:swift sft → sft_main() → SwiftSft(args).main() → run() → train(trainer) → trainer.train(…)swift 可执行程序(console-script)→ swift/cli/sft.py(CLI 子命令入口,基本就把参数解析后转给 sft_main)→ swift/llm/train/sft.py(核心业务:构造 SwiftSft/Trainer、加载模型&数据、开训)→ s

2025-10-08 18:48:18 1255

4-消息传递图神经网络.pdf

4-消息传递图神经网络.pdf

2021-06-19

常用算法总结C&C++.pdf

常用算法总结C&C++.pdf

2021-01-14

EdgeRec边缘计算在推荐系统的应用

EdgeRec边缘计算在推荐系统的应用

2022-02-24

基于高阶和时序特征的图神经网络社会推荐研究

基于高阶和时序特征的图神经网络社会推荐研究

2023-04-02

Python思维导图.rar

python思维导图,助力学习python知识体系,包含基础知识、列表元组、面向对象模块、数据类型、文件对象、字符串、字典集合等等python知识思维导图

2020-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除