周博洋K-优快云博客

原创 2026年第一篇给了Deepseek的新论文mHC

把残差从 1 路扩到 n 路后，你等于是获得了一个n维的“跨层状态空间”：每一层不仅可以修改当前的状态，还可以通过H_res重新组合这 n 条流；信息在不同层之间可以走很多不同路径，而不是一刀切地走同一条主干。举个类比（粗糙但好理解）：标准 residual = 一个“笔直的大走廊”，每层是沿着走廊布置一个小工作间，每层都往同一条走廊上贴东西；n-stream residual = 有 n 条并联的走廊，每层可以决定：这种结构允许：一些信息在某几条流里多绕几圈再汇合；

2026-01-01 21:44:03 1132

原创从MAE到C-Eval（2）

真实标签分布 =p（one‑hot 或经验频率，可以当“真分布”），比如LLM其实就是one-hot，不是在embedding的时候而是在词表V推理（sotamax概率）的时候其实就是一个one-hot，几万十几万的词表，只有那个词被推理出来，它是1，别人是0。这个系列好久没更了，当时停更是因为没有阅读量，但是我现在其实也不为了阅读量了，愿意写啥，写啥，所以就把这个系列又捡起来了（我之前留的所有坑，每个系列也都会填上的）它的熵H(p) = 用分布p自己的概率，去算“平均每次观察一个样本，带来的信息量”。

2025-12-28 20:39:12 886

原创 Multi-Agents design中的分发意图强化

这周去字节的火山大会溜达，和字节的哥们儿（曾经我的客户）brain-storming了很久，他们的一个意图强化design我觉得可以用在multi-agents desgin上，所以写下这篇文章。先说问题这其实是rag系统的问题传统rag就基本流程，文章切chunk，chunk被向量化，查询基于问题的向量化，与vector db里的向量做余弦距离的对比，找出top-K的进到候选名单，再过精排rerank得到最终的几个top-J的 chunks，一起放进LLM来生成答案回复给客户但是这里有个问题，你切完的东西

2025-12-20 20:44:00 791

原创草履虫也能学会的强化学习系列（7）

相反，轮到你走棋时（即你在当前状态下），你会向前思考几步（向前搜索），评估各种可能的走法（动作）会导致什么样的局面（未来状态），以及这些局面最终可能带来的结果（价值/奖励），然后选择当前看起来最好的一步棋。但是，我们也可以在基于模型（Model-Based）的框架下使用蒙特卡洛的思想。它指的是一种在线规划（Online Planning）的策略：当需要做决策时，从当前状态出发，利用一个环境模型来模拟（“向前看”）未来的可能性，构建一个局部的搜索树，评估不同初始动作的价值，然后选择最好的那个动作。

2025-12-18 22:47:20 561

原创你真的看懂了nested learning？（1）

2-模型context都是有上限的，你可能一直输入信息吗，这个是永远不可能的（别谈周期性信息压缩，因为不只你能想到，信息压缩的同时，信息精确度也会打折扣），而且信息输入的越多，越会碰到大海捞针的逻辑，同时因为标准transformer的推理消耗算力是O^2（也别跟我谈linerattion，因为linerattention也不代表没上限），最后你的钱包也受不了（大多数推理模型虽然标识1个M2个M的上下文窗口，但是你超过200K 以后收费直接加倍甚至更高）

2025-12-07 20:47:44 807

原创 Deepseek math V2的价值

在最后两次训练迭代中完全取代了人工标注，实现了在验证计算规模扩大下，持续为验证器创建新的训练数据，从而进一步改进验证器，因为生成器是验证器的儿子，所以生成器也越来越厉害，生成器生成的数据被自动标签流成给送到验证器去了，验证器又强了，强了以后又是下一个迭代的更厉害的生成器了，循环往复。但是，对于老师给题打的分数对应的评语，教委的逻辑是很简单的，就像让你做题你做不出来，但是让你给别人的论调里挑错，你又积极，又能找出问题所在，一旦元验证（教委的能力）发现老师这评语都开始乱写了，那么就到了升级老师的时候。

2025-11-29 21:10:55 725

原创草履虫也能学会的强化学习系列（6）

上节课我们讲了Q-learning，为啥讲Q-learning，是因为讲了好久RL，但是看的同学不多，所以我就想通过demo能给大家更具象的认识一个基本的RL到底干了啥。上次我们介绍了无模型的一个方法，就是Q-learning，这次我们介绍些有模型的方法（后面有模型，无模型穿插着讲吧，因为难度确实不一样）好的，这章先到这里，我们下次见（我发现重写一遍也是对我原来书稿的另一个维度的打磨，从这个角度上来看，我做这个工作还是有意义的）通过与环境的交互，学习并构建上述的环境模型 (包括转移模型和奖励模型)。

2025-11-02 10:38:25 963

原创又有人来问MOE和Dense模型到底差哪了？

那必然是没省，因为你整个参数扩大了，对于transformer模型来讲最大头的参数肯定是MLP，也就是你放大了几倍的参数，weight显存，你占定了，同样的激活，原来我激活一个mlp，哪怕你是最简单的8 experts only激活2个，那也是2倍一样的激活显存，这个不管训练还是推理，你都要投入对应的显存容量来fulfill。MoE 版显著减少了层数。如果随便答，其实什么推理省显存，简单的道理，因为activation 少了么，原来要激活整个MLP，现在激活的几个expert之类的云答案，这种很好找的。

2025-09-28 10:45:28 894

原创 Murati的thinking machines的论文到底讲了什么

这几周比较忙，也没看啥也没写啥（主要在打街霸6的天梯），但是这个论文我扫了一眼还是有价值的，所以给大家解读一下这个论文：https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/其实对于这个解决了什么问题，没那么抽象比如让gpu算一个浮点数，基本算几次可能结果都不一样。浮点数最后影响了概率，概率分布和采样影响了你从tokenzier取哪些字吐给客户端。

2025-09-14 21:54:44 636

原创草履虫也能学会的强化学习系列（4）

它的意义为，一个状态-行动对 (s, a) 的最优价值，等于所有可能的下一个状态 s' 的最优价值的期望值，而下一个状态的最优价值，是通过在下一个状态选择最优行动来达成的。一个状态-行动对 (s, a) 的价值，等于所有可能的下一个状态 s' 的价值的期望值，而下一个状态的价值又取决于策略 π 在该状态下选择不同行动的概率以及这些行动对应的动作价值。贝尔曼方程通过期望处理这种不确定性。这个方程表明，某个状态的价值等于所有可能动作的加权平均，每个动作的价值又依赖于转移到下一状态的奖励和未来状态的价值。

2025-08-16 22:45:58 803

原创草履虫也能学会的强化学习系列（3）

动作价值函数 Qπ(s,a) 是指从状态 s 开始，先采取动作 a ，然后继续遵循策略 π，能获得的期望总回报。它告诉我们，在某个状态下，某个具体动作值不值得做，比如在迷宫中，是向前走好还是转向好。状态价值函数 Vπ(s) 是指从某个状态 s 开始，代理按照策略 π 行动，未来能获得的期望总回报。强化学习的最终目标是让代理学会一个策略π(s,a)（policy），即从观察到行动的映射，使得代理能够在长期内最大化累积奖励。在 MDP 中，总回报通常是折扣的，以确保未来奖励的重要性逐渐减少。

2025-08-03 22:42:51 270

原创 Anthropic最新研究Persona vector人格向量

这篇论文的核心是提出并验证了一种名为“人格向量”（Persona Vectors）的新技术。该技术旨在识别、监控和控制大型语言模型（LLM）内部代表特定“人格特质”（如“邪恶”、“谄媚”或“产生幻觉”）的特定神经网络活动模式。简单来说，Anthropic 找到了一种方法，可以像在大脑中定位特定功能区域一样，在 AI 的“大脑”(其实就是众多神经元的激活向量)中找到控制其性格的“开关”，从而实现对 AI 行为更精确、更可预测的控制，推动 AI 安全从文科和宗教走向理科和科学。

2025-08-02 22:07:59 660

原创草履虫也能学会的强化学习系列（2）

例如，如果代理选择“上 (UP)”，则向上移动的概率为 0.8，而向左移动的概率为 0.1，向右移动的概率为 0.1（因为左和右与上是直角方向）。然而，在某些上下文中，奖励函数也可以定义为R(s, a, s’)，表示从状态s通过动作a转移到s’后的奖励，这取决于具体问题设置。A是动作空间，可能在每个状态s下有不同的可用动作集合A_s。状态S（States）：系统可能处于的所有情况或配置，例如在一个网格世界中，状态可以是代理所在的网格位置, S是状态空间，可能离散（如整数集）或连续（如实数集）。

2025-08-02 10:57:31 846

原创 Agentic-R1 与 Dual-Strategy Reasoning

这样一整条轨迹，前半部分是文本逐步思考，后半通过代码调用计算器给出答案，中间通过"Wait, ..."人工转场语句衔接。论文的“轨迹拼接”过程，就是通过类似的例子，组合出多样推理路径，让学生模型通过蒸馏学会什么时候切换、怎么切换。这让模型既知道遇到算术/复杂题可以用工具，也明白纯文本推理论证也不可少，更能融合两者优点。第二个问题如何定义数据。

2025-07-20 22:48:51 939

原创用Dynamic chunk去干掉tokenizer？

总结一下就是其实就是encoder+dc做了tokenizer的事了，然后上采样+decoder做了softmax到词表的logit这么一上图就没那么抽象了，至于主干那块其实愿意用trasformer还是ssm，或者mamba甚至混着来（现在不都流行这样吗，隔一层一遍，确实能省掉一部分因为指数注意力造成的算力压力），就看你想怎么折腾了A. 语言建模主任务（英文+多语言）

2025-07-19 19:45:50 932

原创蒸馏出个MCP工具箱

这一步将同一功能组内的所有工具实现合并为一个统一的版本，包括参数统一、验证和文档化，最终生成一个可用于生产的 FastMCP 兼容的 Python 文件。模型-上下文-协议 (MCP) 的直接复用：AgentDistill 的核心思想是直接复用由教师代理自主生成的模块化、可复用的模型-上下文-协议（MCP）。* 这些 MCP 会经过一个 MCP-Box 构建过程，包括抽象（移除特定示例的短语，使其参数化和可复用）、聚类（按功能分组）和整合（将功能相似的工具实现合并为通用版本）。

2025-07-05 09:23:46 335

原创 RLVR来做Agent任务能力增强训练

提供给智能体的一系列可用函数，如网页搜索、文件查看器等。

2025-06-29 13:55:49 725

原创当我们说Self-learning，其实是在说什么？

如果说自监督学习的核心是“从数据中学习表示”，那么元学习（Meta-Learning）则将学习的层次提升了一级，其核心是“学习如何去学习”（learning to learn）。它并非致力于精通某一项特定任务，而是旨在掌握一种通用的学习策略，使得模型在面对一个全新的、未曾见过的任务时，能够仅凭极少量的样本就快速适应并达到良好性能。

2025-06-29 00:39:07 1053

原创为什么用Qwen3 embedding和rerank

它这个也和传统的rerank不一样，传统的单塔rerank一般是最后一层liner输出个logit，但是它是用system prompt来让rerank模型生成yes|no，然后输出yes的概率得分，（score = P("yes") / (P("yes") + P("no"))包括为了兼容这块你最好还要做padding的左移，总之现有的代码你想用，是要进行变更的。用户提出了一个口语化的问题，你不希望直接从那些冗长的答案中查找，而是希望先找到与用户问题最相似的“标准问题”，再把相应的标准答案返回给用户。

2025-06-22 21:32:05 1261

原创如何设计Agent的记忆系统

定期迁移冷数据到低成本存储，比如类Glacier的纯冷层，但是我其实还时更推荐放在温层里面进行存储，虽然长期记忆不见的总能用到，但是一旦用到，折腾Glacier还是挺麻烦的，另外一个必须做的工作就是，长期记忆的定期summary，短期记忆可以周期性的汇总形成长期记忆，长期记忆也可以定期汇总形成超长期记忆，来避免context和storage的双重上限压力。以上六种记忆类型，分别服务于AI在不同场景下的存储、处理和应用：从即时、临时的信息处理，到持久、自动化的技能与知识运用。

2025-05-24 23:07:03 1284

原创 DS新论文解读（2）

这个概念是基于现代处理器和加速器设计中越来越流行的。

2025-05-18 20:05:08 1271

原创 dsv3新论文解读（1）

相较于 E5M2，E4M3 用了更多的位数来表示尾数（3位 vs 2位），这意味着它可以表示数值中更精细的小数部分，因此具有更高的精度。但相应的，尾数部分只有 2 位，因此其精度低于 E4M3。FP8 这样的格式，一旦定义好了（比如确定用多少位表示指数，多少位表示尾数），它的测量范围（能表示的最大数和最小数）和每一格的精细程度（精度）就固定下来了。所以它能够根据你的输入来动态给你量化step的宽度，说白了，所示更小，你展示的数值不就更接近最原始的数据分布吗（LLM说白了就是玩概率，你概率准，不就准吗）

2025-05-16 02:49:25 922

原创 RL+search = Deep research

这才是端到端的Agentic的意义，页可以说是LLM as a Agent，Search-R1或者类似的框架，一旦上了，就能通过RL让LLM“学会自主地生成（多轮）搜索查询并在实时检索的情况下进行逐步推理”，和傻调工具的agent是两回事。论文里的印证能看出来，这种最小化的奖励设计在搜索和推理场景中是有效的. RL 即使仅通过结果奖励进行训练，也能帮助模型学习复杂的推理能力，包括自我验证和自我纠正. 在一个案例研究中，SEARCH-R1 甚至在获得足够信息后执行额外的检索步骤进行自我验证.

2025-05-11 16:04:20 811

原创多模态MLLM都是怎么实现的（13）如何保持text2video的连续一致性

这就是一个典型的SD生图流程，通过对比训练的clip embeddding能力，让text的输入隐式包含很多图像的相似性，很好的配合vae编码的latent，这时latent 相当于Q，被clip embedding的text相当于kv，latent再不断去噪声的过程，把text当作参照，也就是按着prompt的指令来生成相应图片位置的object。使用预测的噪声 `ε_θ` 和当前的噪声潜在视频 `z_t`，通过扩散模型的采样算法（如 DDPM, DDIM）计算出稍微去噪的潜在视频 `z_{t-1}`。

2025-04-26 00:01:30 914

原创 Col开头的模型能给RAG带来啥新算法

说白了也不算啥新算法，但是我写的肯定也不是水文章，放心看拿标准RAG来说事的话，一般Hybrid基本上会上两大件儿或3个1- 基于Vecotor的 L2距离或者余弦距离2- BM25的关键字3- 有人做完了之后再过一遍rerank但是这套工作都下来，也不少折腾，还得用好几个模型，然后拼接好几个结果一起发给LLM，让LLM决策，费token不说，多了的东西和准的东西其实有时不完全画等号。那为什么有vecotor DB方案的这个一开始最流行的，后来发现它不太行呢？我们也把这个方式叫无交互。

2025-04-23 00:32:19 701

原创 bitnet-b1.58-2B-4T和三进制

最近有个模型挺火啊现在都排进了HF排行榜的第四了模型叫做microsoft/bitnet-b1.58-2B-4T其实非常小的一个模型，只有2B，那这东西有多大意义呢？它主要探索一个打法也就是这篇论文先说这论文解决啥问题。

2025-04-17 20:25:32 892

原创 Minecraft也能当世界模型？

离散的动作（如前进、攻击）被分类为7个互斥的类别，每个类别用一个唯一的Token表示，也就是所有的操作，被组合成7个互斥的action，此外，还使用了特殊的起始和结束Token来标记动作序列的边界。或者咱们延展一点，如果这东西画面够好一点，比如极品飞车，通过这么玩，研究人员可以设计和测试不同的规划算法，而无需在真实的自驾场景进行耗时且可能危险的实验（但是这个的前提就是要有我说的对真实世界物理引擎的理解了，或者我们说仿真，否则，走任何trajectory都是无意义的MDP）

2025-04-16 23:05:02 993

原创 VScode 玩 MCP的server

vscode claude 3.7 支持了，agent支持了，MCP也支持了，感觉以后cursor啥的有点难了，codebase其实做的都差不多。我本身是Mac版本1.99居然没更新agent，所以我就直接用1.100版本的vscode inside了来掩饰一下了。测试连通性就问问它一些普通问题，例如有没有什么通知之类的，就可以了。把我的邮箱和个人信息都传上去了，吓得我赶紧删了，我的代码里是没有。主要修改的其实是mcp这部分的配置，按着我这个来修改就可以了。传是传了，但是似乎配置有点问题。

2025-04-05 16:59:02 1006

原创精讲（但绝对讲明白）Deepseek的新论文SPCT

Pointwise GRM 的关键特性，例如能够以纯语言表示统一地对单个、成对和多个回复进行评分，以及其生成式的特性允许通过采样获得不同的奖励信号，为 SPCT 中原则的生成和推理时的扩展提供了灵活性和潜力。虽然可以对同一输入多次运行模型，但输出的标量值往往是不变的，无法进行有效的聚合。通过元奖励模型输出的元奖励，可以对采样的奖励进行筛选，从而选出更高质量的样本进行投票，提高最终奖励的准确性。然后，可以对这些采样的奖励进行投票或使用元奖励模型进行更精细的聚合，显著提高奖励的质量和细致程度。

2025-04-04 20:36:30 1327 1

原创 A16z也玩RTX4/5090 来搭建穷鬼GPU机器

在这种设置中，PCIe板与主板是分开的，这是一种独特的设计，使得两个独立的PCIe 5.0 PCB板可以单独安装。我们的配置通过将PCIe板与主板分离来解决这个限制，从而在不妥协的情况下完全支持八个三插槽GPU，并使用定制的铝制框架来固定四个外部GPU。这是一个至关重要的优势，因为延长线可能会扰乱PCIe总线的阻抗，从而可能导致系统降级到较低的PCIe版本（例如3.0甚至1.0），从而导致显著的性能损失。确保“Y”型分线电缆延长线具有适当的线规，以安全地处理外部PCIe卡和GPU的功率需求。

2025-04-04 10:18:54 1034

原创除了rag和train有没有其他方式给模型注入知识？

当然是有的，没有我就不发这篇文章了.论文名称KBLAM: KNOWLEDGE BASE AUGMENTED LANGUAGE MODELICLR 2025的论文，MS系的这篇论文介绍了一种名为 KBLAM（Knowledge Base augmented Language Model，知识库增强语言模型）的新方法，用于将外部知识库（KB）高效地集成到预训练的大型语言模型（LLM）中，以提升其在特定任务中的表现，同时避免传统方法的局限性。核心问题与背景。

2025-03-28 13:06:50 660

原创手把手带你理解OpenManus

它具有初始化、计划创建(create_initial_plan)、思考(think)、行动(act)、计划状态更新(update_plan_status)、步骤跟踪(step_execution_tracker)等功能，并能根据工具执行结果动态调整计划，处理初始请求(run)并检索当前计划状态(get_plan)。__init__: 初始化工具相关的属性 (available_tools, tool_choices, special_tool_names, tool_calls等)。

2025-03-15 22:24:11 1948

原创你理解的控制LLM幻觉的方法可能是错的

那什么是粗暴的控制LLM的幻觉的方法呢？正常你们大家学到的应该是top_k=1top_p=0.1类似这种的但是这种是不是能解决幻觉呢？很显然在做的各位试过，应该是没什么效果的为什么呢?正常来讲，我们不是把生成next token的概率放到最大的那个token上了吗？今天先回忆个概念LLM是靠什么来决定next_token生成的就是Logit，就是softmax你的前向计算的最后一层（这么表达不精确，但是你可以认为就算最后一层了）过了output之后呢？

2025-02-24 00:54:19 1141

原创 SSI用量子计算来玩AI

提到量子计算，大多数人想到的因式分解来暴力破译密码，要不就是拿量子态模拟化工生物啥的（因为世界是量子的，传统计算比如GPU要模拟一个真实的量子行为，比如CRP蛋白质反应，得老鼻子GPU了，可不是alapha fold那种预测能实现得难度，量子计算就很擅长这个）另外刚才我讲了传统计算机有自己的控制误差底层纠错能力，但是Qbit就不太行，它的能量太小了，比如用超导的系统来做，一个量子Qbit就只有1个光子的能量而已，贼脆弱，特别容易收到环境干扰和内部误差的影响。（人脑只有40瓦的灯泡耗电量的故事，我就不讲了）

2025-02-22 22:29:09 911

原创强化学习能让小模型多恐怖？

不是标题党！不是标题党！不是标题党！先说3遍这个模型有多大呢？

2025-02-19 20:28:28 662

原创快速讲一下deepseek的新论文，这次他们魔爪伸向了attention

该分支在输入序列中维护一个固定大小的窗口，对窗口内的 token 进行常规的注意力计算，确保模型能敏感地捕捉到近邻之间的细节和依赖关系，从而防止在全局稀疏化处理时局部信息被遗漏，这个就没什么特别可讲得了。在传统的注意力机制中，随机的内存访问会造成较大的延迟，而 NSA 的选择分支通过对连续块的选择，有效避免了这种问题，确保了硬件的高速缓存（cache）和带宽能得到最优利用，从而进一步提高计算速度（这部用细讲了，windows app都知道要降低random 读写，能提升速度）

2025-02-18 16:10:36 768

原创 LLM到底会解数学题吗？

总结一下，就是模型肯定是可以学到训练集里解决问题的技巧，也就是COT范式，COT也是有范式的，或者说学到了解决问题的思路，但是它总是盲目的使用，也不去考虑比如类似问题被修改了以后，还用这套COT范式，是不是合适。至于文章说用什么mcts，BON还是文章自己的训，我到觉得都不重要，mcts+个reward model的变形一样可以训，只要你把COT的pattern给内化到模型里，基本就可以干这个事了。另一个角度上讲，其实让我乐观了一些，我一直担心，LLM要取代人类，但是我也没什么确实的证据或者反证。

2025-02-13 22:07:45 752

原创算力人再次天塌？李飞飞的s1是怎么炼成的

做算力的人天又塌了！！！（这个正月，塌好几次了）https://arxiv.org/pdf/2501.19393李飞飞团队刚刚发布的论文，仅仅用了 1000 个样本，用了 16 块 H100，在 26 分钟就训练完成了可以匹敌 o1-preview 的模型。但是具体的情况？本着本 blog 一贯认真负责的追求事实真相的原则，我抽丝剥茧展开说一下。S1 这个模型的训练方法基础模型性能很好 Qwen2.5-instrut，用过的都知道 32B 模型里的最强者，没有之一（闭源也没有 32B 的）。S1 模型就是基

2025-02-06 18:59:03 1891

原创 All in one 的 AI tool Chain “Halomate”

2- Deepseek 有非常好的文学造诣和情商，用它来进行创作简直无敌，在deepseek这么火的今天，大家使用的很多endpoint其实服务的并不是完整的600B，而是其他蒸馏版本，在这里你可以使用到原生的deepseek的古灵精怪能力。我刚才的mate就默认开启了高级visualization强化的能力，让AI给你的答案不光是答案，还会以具像化的图标来呈现，有更强的表现能力。WC，这个悲伤又亢奋的曲子就被谱写出来了，虽然是mid的，但是能家族对抗的味道。6、Preview产品原型？

2025-02-05 20:37:57 1999

原创产品思维的角度来讲，Deep Research本质是Co-RAG

当然我这个标题扣的很多同学会不同意也能理解比如有些人说我用while 也能实现只要最终给出一个差不多样子的markdown文件就行这话也对也不对对的是似乎从产出物来讲，是那么回事，但是实际上你的东西不一定是deep research，有可能是deep hallucination，或者是deep fake原因其实和最早玩autoGPT之类的agent没什么区别multistep解决问题是提升精确率的一个重要因素，但是不是只靠它就可以内生COT或者叫隐式COT的的道理也是一样的。

2025-02-04 21:44:39 823

空空如也

空空如也