自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1321)
  • 资源 (4)
  • 收藏
  • 关注

原创 【LLM】多模态LLM综述MultiModal Large Language Models

note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In

2024-06-02 13:05:46 4835 8

原创 【论文笔记】GraphSAGE:Inductive Representation Learning on Large Graphs(NIPS)

- GCN不能泛化到训练过程中没有出现的节点(即属于 $transductive$ 直推式学习,若加入新节点则需要重新训练模型),既然有新增的结点(一定会改变原有节点),那就没必要一定得到每个节点的固定表示。而GraphSAGE就是为了解决这种问题,利用Sample(采样)和Aggregate(聚合)两大核心步骤,通过利用学习到的聚合函数,得到一个新节点的表示。- 本文先介绍GraphSAGE向前传播过程(生成节点embedding),不同的聚合函数设定,然后介绍无监督学习和有监督学习的损失函数和参数学习

2021-10-06 21:11:58 2388 13

原创 【RL】Does RLVR enable LLMs to self-improve?

论文:Does RLVR enable LLMs to self-improve?研究问题:这篇文章探讨了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力,特别是是否超越了基础模型的推理能力。研究难点:该问题的研究难点包括:如何准确评估LLMs的推理能力边界,以及现有的RLVR方法是否能够引入新的推理模式。相关工作:该问题的研究相关工作包括OpenAI的o1模型、DeepSeek-R1等,这些工作展示了LLMs在复杂逻辑任务中的显著进步,但对其推理能力的提升机制尚不明确。(1)可验

2025-11-22 19:41:15 1038

原创 【LLM】谷歌Gemini 3模型简介

特点:- 多模态理解:不仅理解文字,也能处理图像、甚至视频/音频数据。举例:能看一张图像、理解内容,再结合文字生成答案。- 更强的推理能力:在诸多基准测试(benchmarks)上取得了较前代大幅提升。比如官方提到 “PhD 水平的推理” 等。- 工具/代理能力更强:在企业/开发者场景里,它不仅做“问答”,还能调用工具、做流程、做自动化任务。- 可用性面向企业/开发者推出:例如通过 Gemini Code Assist 在 VS Code/IntelliJ 插件中启用 Gemini 3应用场景:

2025-11-22 18:52:58 294

原创 【MLLM】全模态Omni模型(持续更新)

OmniVinci使用OmniAlignNet:跨模态语义对齐网络。Temporal Embedding Grouping (TEG):时间嵌入分组机制LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力。Ming-flash-omni-Previ

2025-11-22 15:44:37 512

原创 【RL】Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

提出了监督强化学习(SRL)框架,通过将专家解决方案分解为可管理的步骤并提供密集的序列相似度奖励,显著提高了LLMs在复杂推理任务上的性能。实验结果表明,SRL不仅在数学推理和软件工程任务上优于基线方法,还能与RLVR结合形成强大的课程学习策略。SRL作为一种稳健且通用的技术,能够解锁模型从具有挑战性的多步问题中学习的能力,为训练更强大、更多功能的AI代理奠定了基础。SRL巧妙地融合了SFT和RL(hard reasoning problem难学会)的优点,它不再是僵硬地模仿整个轨迹,也不是盲目地等待最

2025-11-22 15:23:20 678

原创 【LLM-video】HunyuanVideo-1.5视频生成模型

视频超分辨率增强:开发了一个高效的几步超分辨率网络,将输出放大到1080p,增强了细节并纠正了失真。3、稀疏注意力优化:引入了一种新的SSTA(选择性滑动块注意力)机制,动态剪枝冗余的时空令牌,显著减少了长视频序列的计算开销并加速了推理。4、增强的多模态理解:框架使用了一个大型多模态模型进行精确的双语(中文-英文)理解,结合了ByT5进行专门的字形编码,以增强视频中文本生成的准确性。5、端到端训练优化:展示了Muon优化器在视频生成模型训练中显著加速收敛,同时多阶段渐进训练策略从预训练到后训练阶

2025-11-22 13:53:48 859

原创 【RL】KTO: Model Alignment as Prospect Theoretic Optimization

研究问题:这篇文章要解决的问题是如何更好地对齐大型语言模型(LLMs)与人类反馈,以提高生成内容的有用性、事实性和伦理性。研究难点:该问题的研究难点包括:人类反馈通常以偏好形式出现,而偏好数据稀缺且昂贵;现有的对齐方法在处理大规模模型时存在性能和稳定性问题。相关工作:该问题的研究相关工作有:RLHF、DPO等基于偏好的对齐方法,以及条件SFT、序列似然校准等非基于偏好的对齐方法。二、研究方法这篇论文提出了一种新的对齐方法,称为Kahneman-Tversky优化(KTO),用于解决LLMs与人类反

2025-11-16 23:02:49 986

原创 【RL】ORPO: Monolithic Preference Optimization without Reference Model

本文提出了一种无需参考模型的单片赔率比率偏好优化算法(ORPO),通过重新审视和理解监督微调(SFT)在偏好对齐中的作用,实现了高效的偏好对齐。ORPO在不同规模的预训练语言模型上均表现出色,超越了现有的较大指令跟随语言模型。实验结果表明,ORPO在指令跟随、奖励模型胜率和词汇多样性方面均取得了显著的提升。ORPO 的目标函数巧妙地结合了传统的监督微调损失和一个新提出的相对比率损失。LORPO=E(x,yw,yl)[LSFT+λ⋅LOR]L ORPO​

2025-11-16 22:46:46 1070

原创 【RL-LLM】Self-Rewarding Language Models

Self-Rewarding Language Models- 研究问题:这篇文章要解决的问题是如何通过自我奖励的语言模型(Self-Rewarding Language Models)来实现超人类智能代理。具体来说,现有的方法通常依赖于人类偏好数据来训练奖励模型,然后使用这些模型来训练大型语言模型(LLM),但这种方法存在瓶颈,即人类偏好数据的大小和质量限制。- 研究难点:该问题的研究难点包括:人类偏好数据的质量和数量限制;奖励模型的固定性无法在LLM训练过程中进行改进;如何在不增加外部数据的情况下

2025-11-16 22:30:23 1139 2

原创 【RL】REINFORCE Leave-One-Out (RLOO)

REINFORCE Leave-One-Out (RLOO) 基于经典的 REINFORCE 策略梯度方法,通过留一法(Leave-One-Out)构造无偏的优势函数基线。我们基于 GRPO(Group Relative Policy Optimization)算法进行对比说明。GRPO vs RLOO 的主要区别GRPO 和 RLOO 都采用组内对比的方式来估计优势函数,避免了全局基线估计带来的高方差问题。两者的核心区别主要体现在以下两个方面:区别1:优势函数基线的构造方法1. GRPO

2025-11-12 01:24:48 949

原创 【RL】CHORD框架实现SFT和RL的统一

On-Policy RL Meets Off-Policy Experts: Harmonizing SFT and RL via Dynamic Weighting研究问题:这篇文章要解决的问题是如何在监督微调(SFT)和强化学习(RL)之间实现有效的统一,以提升大型语言模型(LLMs)的性能。现有的SFT和RL结合方法往往会导致模型模式被破坏和过拟合专家数据的风险。研究难点:该问题的研究难点包括:如何在SFT和RL之间实现平稳过渡,避免模型模式被破坏;如何有效地利用专家数据进行训练,同时保持模型的

2025-11-12 01:08:25 957

原创 【RLVR】A Survey of Reinforcement Learning for Large Reasoning Models

A Survey of Reinforcement Learning for Large Reasoning Models大型推理模型强化学习综述研究问题:这篇文章要解决的问题是如何在大规模语言模型(LLMs)中使用强化学习(RL)来提升推理能力,特别是处理复杂逻辑任务如数学和编程问题。研究难点:该问题的研究难点包括计算资源的需求、算法设计、训练数据和基础设施的挑战。相关工作:该问题的研究相关工作包括AlphaGo和AlphaZero等系统的成功应用,这些系统通过自我对弈和奖励反馈达到了超越人类水

2025-11-10 00:35:14 1080

原创 【LLM】SmolLM3模型训练手册

RLVR强化学习Reinforcement Learning with Verifiable Rewards (RLVR)基于 RL 的训练的效率和稳定性在很大程度上取决于学习算法是on-policy还是off-policy。GRPO 等方法通常属于on-policy算法类别,其中生成完成的模型(策略)与被优化的模型相同。虽然 GRPO 是一种on-policy的算法,但也有一些注意事项。首先,为了优化生成步骤,可以对几批代进行采样,然后 k 对模型进行更新,第一批是on-policy的,接下来的几

2025-11-09 23:19:33 1008

原创 【RLVR】GRPO中奖励函数的设计逻辑

GRPO中常见的奖励函数设计## 1、DeepSeek-R1(数学推理)1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning奖励函数:* 格式正确性:如思考链在`<think>`和`</think>`之间等* 内容正确性:可行性验证,数学运算/代码运行正确等## 2、DeepTrans(翻译)翻译大模型(wechat微信)DeepTrans: Deep Reasoning T

2025-11-08 16:27:31 701

原创 【LLM-RL】以信息熵的角度理解RL

为啥会发生熵崩溃为什么会发生“熵崩溃”?论文从数学上给出了一个解释。作者推导出,策略熵的变化与一个关键因素——动作概率和优势函数(Advantage)的协方差——有关(反比关系)。原文中的公式比较复杂,感兴趣的读者可以自行拜读。这里提供一个通俗易懂的说法(在数学上不一定严谨)。简单来说:• 当模型选择一个高概率的动作(token),而这个动作又带来了高奖励(高Advantage)时,强化学习算法会大力强化这个选择。• 这种“强强联合”的更新,会导致这个高概率动作的概率变得更高,其他动作的概率被压制,

2025-11-03 00:08:21 818 2

原创 【RL】Scaling RL Compute for LLMs | JustRL 1.5b

ScaleRL配方中包含了哪些关键技术选择?这些选择是如何影响渐近性能和计算效率的?​​​​异步Pipeline-RL设置​​:提高训练稳定性和效率。​​强制长度中断​​:防止推理输出长度爆炸,提高训练稳定性。​​截断的重要性采样RL损失(CISPO)​​:提高渐近性能。​​提示级损失平均​​:优化损失聚合方式,提高计算效率。​​批次级优势归一化​​:提高计算效率。​​FP32精度在logits​​:减少数值不匹配,提高渐近性能。​​零方差过滤​​:排除贡献为零的提示,提高计算效率。​​无正

2025-11-02 22:52:41 860

原创 【LLM】大模型Mid-Training训练综述

中期训练技术总结,Mid-Training of Large Language Models: A Survey链接:https://arxiv.org/pdf/2510.06826,例如:MiniCPM中期训练使用20Btokens,混合预训练数据与高价值SFT数据(如SlimOrca、EvolInstruct),上采样推理/编码数据;Qwen3三阶段预训练,中期阶段(第二阶段)用5T高质量4K序列tokens,增加STEM(科学、技术、工程、数学)、编码、推理数据占比,第三阶段用数百亿tok

2025-11-02 01:20:59 745

原创 【LLM-Agent】七种agent协作模式

7种智能体(Agent)协作模式并行模式(Parallel):每个智能体负责处理不同的子任务,例如数据提取、网页检索和内容摘要,它们的输出会整合为一个统一结果。该模式非常适合在文档解析、API 编排等高通量流程中降低延迟;串行模式(Sequential):每个智能体逐步为任务增值,例如一个智能体生成代码、另一个进行审核、第三个负责部署。在工作流自动化、ETL(抽取 - 转换 - 加载)链路以及多步骤推理流程中,常能见到这种模式的应用;循环模式(Loop):智能体会持续优化自身输出,直到达到预期质量

2025-11-01 17:33:42 310

原创 【RL】DAPO的后续:VAPO算法

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks1、研究背景研究问题​​:这篇文章要解决的问题是如何在长链推理任务(long chain-of-thought reasoning)中提高基于价值模型的强化学习(RL)方法的效率和可靠性。研究难点​​:该问题的研究难点包括:价值模型偏差、异构序列长度、奖励信号稀疏性。相关工作​​:该问题的研究相关工作有:OpenAI O1、DeepSeek

2025-10-18 16:22:05 745

原创 【LLM】字节的DAPO强化学习算法

提出了DAPO算法,包含四个关键技术:Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss和Overlong Reward Shaping。​​Clip-Higher​​:通过解耦上下剪切范围(ε low 和ε high ),提高低概率探索令牌的概率增加空间,增强策略的多样性和熵。​​Dynamic Sampling​​:通过过采样和过滤掉准确率为0和1的提示,确保每个批次中的提示都有有效的梯度,减少梯度信号的方差。​​Token

2025-10-18 16:15:46 978 1

原创 【LLM】强化学习TTRL: Test-Time Reinforcement Learning

TTRL实验设计模型选择​​:实验使用了多个模型家族的不同规模和类型的模型,包括Qwen家族、LLaMA家族、Mistral家族、DeepSeek家族和其他模型。​​基准测试​​:在GPQA-Diamond、AIME 2024、AMC和MATH-500等基准上进行评估。评估设置​​:采用pass@k评估协议,设置最大生成长度为3072个令牌(除特别指定外)。对于主要实验,生成16个响应(对于32k上下文为4个响应),并使用温度0.6和非零温度采样计算pass@1分数。

2025-10-18 16:08:25 901

原创 【LLM】VeRL训练框架源码分析

「VeRL(Volcano Engine Reinforcement Learning for LLMs)」VeRL 是什么开源的 LLM 后训练(RL/RLHF/RLAIF)框架,由字节 Doubao/Seed 团队主导。它把算法流和分布式执行解耦,既能像写“数据流”一样拼装 RL 步骤,又能在多种训练/推理引擎上高效跑(FSDP、Megatron-LM、vLLM、SGLang 等)。官方称相较已有系统在多种 RLHF 算法上可达 1.53×–20.57× 吞吐提升(论文实验)。(GitHub)

2025-10-08 21:40:02 1313

原创 【LLM】大模型vibe coding(cursor、copilot、comate)

选对工具,谋定而后动• 新手和老手选择不同:如果你是编程新手,可以从 Replit 或 Lovable 这类可视化工具入手,它们能让你快速搭建界面。但文章指出,当你需要更精细地控制后端逻辑时,这类工具可能力不从心。如果你有基础,那么像 Cursor 或 Claude Code 这类更专业的编码AI工具会是更好的选择,它们提供更精准的控制。• 别直接写代码,先做计划:这是最重要的建议之一。不要一上来就让AI直接生成代码,而是应该先和AI一起制定一份详细的开发计划,就像建筑蓝图一样。把这份计划保存在项目里

2025-10-08 19:12:53 1075 4

原创 【LLM】ms-Swift大模型训练框架源码分析

ms-Swift整体调用链SFT流程:swift sft → sft_main() → SwiftSft(args).main() → run() → train(trainer) → trainer.train(…)swift 可执行程序(console-script)→ swift/cli/sft.py(CLI 子命令入口,基本就把参数解析后转给 sft_main)→ swift/llm/train/sft.py(核心业务:构造 SwiftSft/Trainer、加载模型&数据、开训)→ s

2025-10-08 18:48:18 1031

原创 【LLM】知识图谱和LLM的结合

知识图谱的构建## 1、金融领域【金融领域知识图谱构建进展】FinKario: Event-Enhanced Automated Construction of Financial Knowledge Graph,https://arxiv.org/pdf/2508.00961,FinKario:事件增强型金融知识图谱与检索框架,核心看知识图谱构建思路:从东方财富网收集研报(2024.8-2025.2),用 MinerU 工具转标准化 Markdown(去除免责声明、图片、重复法律声明等冗余内容,保留核

2025-10-08 15:59:47 952

原创 【LLM】VLM模型视觉信息抽取任务数据合成

1)先拆文档,根据不同的要素做。如果是扫描图(比如手写表单)则用OCR工具(比如PaddleOCR)把图里的文字抠出来,顺便记下来每个文字在图里的位置(比如“公司名”在左上角,坐标是x1=88,y1=1,x2=169,y2=21),也就是图像文档用OCR提取文本行实体 L=(b,c)(b 为边界框,c 为内容);这些“语义块”拆出来,去别处“这是标题”“这是列表”;2)让大模型给不同的要素生成QA对真谛不同的元素,生成“问题-答案对”当训练数据。比如零件是“公司名:印度C资源有限公司”,就编个问题“文档

2025-10-08 14:44:53 184

原创 解决报错Could not load symbol cudnnGetLibConfig. Error: /usr/lib/x86_64-linux-gnu/libcudnn_graph.so.9

一、问题描述在跑qwen3 omni的部署推理时报错Could not load symbol cudnnGetLibConfig. Error: /usr/lib/x86_64-linux-gnu/libcudnn_graph.so.9: undefined symbol: cudnnGetLibConfig。如果按照官方readme安装对应包还是这样报错,官方安装:pip install git+https://github.com/huggingface/transformerspip ins

2025-10-07 18:07:57 427

原创 【MLLM】Qwen3-Omni全模态模型源码解读

note一、模型回顾二、源码解读1、一句话总览2、目录里各文件是干嘛的1) `processing_qwen3_omni_moe.py` :统一的多模态 Processor2) `modeling_qwen3_omni_moe.py` :核心模型拼装3) `configuration_qwen3_omni_moe.py`:配置3、完整调用链三、相关问题四、整体的设计思想Reference一、模型回顾模型架构:音频编码:模型的音频编码器采用基于 2000 万小时数据训练的 AuT

2025-10-06 21:54:08 1488

原创 【LLM-RL】GSPO算法Group Sequence Policy Optimization

Group Sequence Policy Optimization中指出GRPO在计算重要性采样权重时,是在token级别进行操作的。然而,这种做法由于每个token仅采样一次,无法实现有效的分布校正,反而会在模型训练过程中引入高方差噪声,极易导致模型的梯度估计不稳定,最终造成模型训练的崩塌。因此,论文认为,优化目标的单位应该与奖励的单位保持一致。由于奖励通常是在序列级别(即完整生成的回复)给出的,因此更合理的做法是将 off-policy 校正和优化也提升到序列级别,而非 token 级别。以下是三

2025-10-04 17:34:44 1236

原创 【LLM-RL】GRPO->DAPO->GSPO训练区别

GRPO的创新与局限:GRPO简化了PPO,主要变化✅ 用规则函数替代奖励模型✅ 取消了价值模型✅ 优势函数改为输出序列奖励值的标准化但GRPO存在三大问题:序列级奖励与token级动作粒度不匹配重要性采样方差偏移累积MOE模型上训练不稳定DAPO的四大改进移除KL散度约束非对称裁剪(Clip-Higher)动态采样策略token级别的梯度计算GSPO的核心思想:针对MOE模型的特殊性,GSPO将动作粒度提升到序列级别使用序列重要性采样的几何平均减少单个token方差影响更适

2025-10-04 17:13:21 980

原创 【LLM】基于ms-Swift大模型SFT和RL的训练实践

Swift框架MoE训练并行技术选择:Megatron-SWIFT的并行技术采用zero1(默认开启use_distributed_optimizer)+各种并行技术的组合。DP的速度最快,但显存占用较多,使用其他并行技术以降低显存占用。TP/EP通信量较大,尽量不跨节点(NVLink域内),跨节点建议使用PP/DP;专家层建议使用EP而不是ETP,ETP更节约显存,但速度较慢。MoE 并行折叠:MoE 相关的并行组与 Dense 组分离。Attention使用 tp-cp-dp-pp 组,MoE

2025-10-03 22:20:14 1159 1

转载 【LLM】Qwen-Agent框架使用和源码解读

核心功能:函数调用、代码解释器、多模态处理、记忆能力Qwen-Agent接入MCP的原理采用stdio开发模式,将mcp服务作为Qwen-Agent应用的子进程, Qwen-Agent作为客户端与子进程服务通信。文章目录note一、Qwen-Agent框架1、框架介绍2、相关实践和应用场景二、MCP的使用栗子1、sqlite数据库小助手2、旅行规划3、思维导图生成三、Qwen-Agent框架源码解读1、整体架构图2、函数调用和工具集成3、RAG 和内存系统4、多代理协调其他:

2025-09-21 17:41:39 914

原创 【Agent】通义DeepResearch之通过CPT Scaling Agents

首次将智能体持续预训练 (Agentic CPT) 的概念引入研究型智能体的训练中。为此,他们提出了 AgentFounder,一个系统化、可扩展的大规模数据合成方案,它通过整个后训练流程的数据,创造了一个数据飞轮。提出了First-order Action Synthesis (FAS) 和 Higher-order Action Synthesis (HAS),并采用两阶段训练策略,系统地生成大规模agent数据。核心点合成数据策略,也就是多阶段数据生成与优化方案,涵盖 Agentic 持续预训练数

2025-09-20 17:15:49 1202

原创 【RAG-LLM】InfoGain-RAG基于文档信息增益的RAG

1)量化指标。量化检索文档对正确答案生成的贡献,通过计算“有无该文档时LLM生成置信度的差值”(结合查询x与文档di时,LLM生成正确答案y的置信度,减去仅基于查询x时,LLM生成正确答案y的置信度),然后,传统置信度计算的“长度偏差”与“token重要性不均”问题,采用两步优化,一个是滑动窗口平滑,然后将LLMlogits归一化后的token概率作为置信度,缓解长序列因单个低概率token导致的置信度偏低问题,然后,对token进行重要性加权,对答案前k个核心token赋予更高权重;2)执行过程。“D

2025-09-20 17:10:59 866

原创 【LLM】具有训练推理性价比的Qwen3-Next模型

基于 Qwen3-Next-80B-A3B-Base型, 同步开发并发布了Qwen3-Next-80B-A3B-Instruct与Qwen3-Next-80B-A3B-Thinking- 认为Context Length Scaling和Total Parameter Scaling是未来大模型发展的两大趋势,为了进一步提升模型在长上下文和大规模总参数下的训练和推理效率,我们设计了全新的Qwen3-Next的模型结构。该结构相比Qwen3的MoE模型结构,进行了以下核心改进:==混合注意力机制、高稀疏度

2025-09-14 00:59:07 938 1

原创 【LLM】Openai分析大模型出现幻觉的原因

大模型幻觉的原因:标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。要减少幻觉,需调整现有评估基准的评分方式,而非仅增加幻觉专项评测。通过显式引入置信目标,可以引导模型更诚实地表达不确定性通过“Is-It-Valid”(IIV)二元分类问题的形式化分析,我们证明生成错误与分类错误之间存在数学关联:生成错误率至少是IIV分类错误率的两倍。这一结果表明,即使训练数据完全正确,模型仍会因统计压力而产生幻觉。当前主流评测(如MMLU、GPQA)采用二元评分(正确1分/错误0分)

2025-09-06 19:09:08 858

原创 【LLM】强化学习训练框架(slime、verl框架)

R1 出现后,RL 从 Human Alignment 向 Reasoning 转变,除对齐任务外,还可用于代码生成、数学推理等领域。这些任务有明确 ground truth,可通过评估代码在测试用例中的正确性或验证数学结果准确性确定。奖励模型可用非神经网络的奖励模块替代,如代码生成任务用沙箱环境评估执行结果,数学推理任务用奖励函数验证结果正确性。SLIME 框架中的 ​​Rollout​​ 部分,指的是大模型在强化学习(RL)训练过程中,​​根据当前策略(模型参数)与环境(或用户提示)进行交互,生成一系

2025-08-31 18:30:09 1867

原创 【MLLM】具有长期记忆的多模态智能体框架M3-Agent

M3-Agent 的架构,包括一个多模态大型语言模型 (MLLM) 和一个多模态长期记忆。该系统由两个并行过程组成:记忆和控制。在记忆过程中,M3-Agent在线处理视频和音频流,生成情景记忆和语义记忆。在控制过程中,它通过迭代地推理和从长期记忆中检索来执行指令。长期记忆被结构化为多模态图。在记忆过程中,M3-Agent会实时处理输入的视频流,通过生成两种记忆类型来同时捕获细粒度细节和高级抽象信息,类似于人类认知系统:事件记忆:记录视频中观察到的具体事件。例如,“爱丽丝拿起咖啡说,‘早上没有这个我无

2025-08-31 17:28:17 865

原创 【MLLM】语音端到端大模型和Voice Agent发展

主流方案:端到端 or 级联方案(ASR + LLM + TTS)级联方案:语音输入 → ASR(语音转文本) → LLM(文本理解与生成) → TTS(文本转语音) → 语音输出​CosyVoice模型:对于交互应用(如语音助手),用户希望一说话就有回应。Flow Matching 的​​确定性特性​​(每一步计算都是确定的,不像扩散模型可能有随机性)和​​可控的路径规划​​,使得 CosyVoice 可以实现​​流式生成​​:一边接收文本,一边合成语音,而不需要等全部文本处理完再开始。这显著降低了响

2025-08-31 16:57:58 1680

4-消息传递图神经网络.pdf

4-消息传递图神经网络.pdf

2021-06-19

常用算法总结C&C++.pdf

常用算法总结C&C++.pdf

2021-01-14

EdgeRec边缘计算在推荐系统的应用

EdgeRec边缘计算在推荐系统的应用

2022-02-24

基于高阶和时序特征的图神经网络社会推荐研究

基于高阶和时序特征的图神经网络社会推荐研究

2023-04-02

Python思维导图.rar

python思维导图,助力学习python知识体系,包含基础知识、列表元组、面向对象模块、数据类型、文件对象、字符串、字典集合等等python知识思维导图

2020-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除