zhengdao9906-优快云博客

原创 Training-free方法在垂直领域的实践

本文提出了一种无需训练大模型参数的轻量级优化方案Training-Free GRPO，通过动态注入"业务风险识别指南"来提升大语言模型在垂直领域的表现。该方法构建了Analyst-Critic-Controller三模块协同系统，通过多轮迭代自动优化提示内容，在阿里云某垂直领域仅使用几十个样本就使Qwen3系列模型准确率提升5.3%~6.7%，显著优于人工调优prompt的基线。实验表明，该方案能以极低成本(<¥150)实现效果提升，且支持跨领域复用和模型升级。

2025-12-22 19:21:00 552

原创为什么业务风控需要“不一样的大模型”？—— 从“允许犯错”到“一次都不能错”的范式转变

摘要：当前大模型主要聚焦创意与交互场景，但业务风控等工业场景对模型的一致性、鲁棒性和稳定性要求严苛。主流基模（如Qwen3-Max）在风控中存在语义波动、抗干扰弱、易被诱导等短板。解决方案需从数据（构建等价样本）、训练（一致性约束）、评估（风控专属指标）和部署（双模型校验）四方面重构方法论，将风控模型视为“安全关键系统”，追求零失误。未来需开辟**“稳、准、抗攻击”**的专属赛道，推动大模型从“惊艳”到“可靠”的范式革命。（字数：149）

2025-09-22 14:56:20 852

原创 LLM训练之“Reward Design”总结

本文系统梳理了语言模型强化学习中的奖励工程方法，将其分为五大类：1）可验证奖励，适用于数学、代码等可自动化验证的任务；2）生成式奖励，通过LLM生成细粒度反馈，处理主观性任务；3）密集奖励，在推理过程中提供多粒度反馈；4）无监督奖励，利用模型内部信号或外部数据自动化生成奖励；5）奖励塑形，通过组合和优化奖励函数提升训练效果。各类方法各有优势与挑战，共同推动语言模型RL的发展。其中，可验证奖励最成熟可靠，生成式奖励扩展了RL的应用范围，密集奖励改善训练效率，无监督奖励突破人工标注限制，奖励塑形则优化信号质量。

2025-09-18 17:32:03 668

原创聊聊大模型的self-training：从Test-time RL说起

在大型语言模型（LLM）的后训练时代，一个核心挑战是如何在不依赖海量人工标注数据的前提下，持续提升模型的推理和任务解决能力。传统的监督微调（SFT）和基于人类反馈的强化学习（RLHF）虽然有效，但其成本高昂且难以规模化。正是在这样的背景下，自监督学习（Self-supervised Learning）以其独特的优势脱颖而出。自监督的核心思想是让模型利用数据本身或其内在结构来生成监督信号，从而实现“自我进化”。

2025-09-15 20:23:02 1087

原创 Test-time scaling 论文速览

【摘要】本文综述了Test-time scaling（TTS）领域的最新研究进展，重点分析了6篇高分论文的核心方法与应用价值。TTS技术通过优化推理阶段的计算资源分配（如并行采样、多数投票等），显著提升大模型输出质量，且无需额外标注数据。

2025-08-05 11:30:39 1137

原创 Test-time scaling 技术领域调研

摘要： Test-time Scaling (TTS) 是一种在推理阶段通过额外计算或策略提升预训练语言模型性能的技术，无需重新训练模型。其核心思想是挖掘模型潜在能力，通过更深入思考或多路径探索优化输出质量。TTS的必要性源于大模型训练成本高昂、部署后性能优化需求，以及适应新任务和提升鲁棒性的挑战。常见方法包括并行扩展（生成多个候选答案）、序列扩展（逐步细化推理）、混合扩展（结合并行与序列策略）和内部扩展（模型自主分配计算资源）。TTS提供了经济高效的性能优化方案，但需权衡推理延迟与质量提升。未来，更智能的

2025-06-17 19:58:21 1130

原创经过理论推导，我想质疑RLOO算法...

论文链接：https://arxiv.org/abs/2402.14740我是从理论层面感到疑惑。熟悉RLOO原理的同学可以直接跳到最后。REINFORCE Leave-One-Out（RLOO）算法是在REINFORCE 算法基础上发展而来的一种改进算法，它主要针对REINFORCE 算法梯度估计方差较高的问题，通过利用多个在线样本构建更有效的基线来降低方差，从而提升算法性能。这个公式的含义是，对每个样本的奖励减去用其他样本构建的基线，再乘以该样本动作概率的对。

2025-06-13 17:34:06 934

原创 Qwen3 技术报告

用 Qwen2.5-VL 清洗 pdf 中的文本，支持语言数量从 29 提高到 119；后训练步骤分为 4 阶段，和 DeepSeek-R1 高度相似。

2025-05-15 11:43:27 1514

原创 Test-time scaling（TTS）相关结论

A：从广义上讲，测试时scaling有三个基本的技术途径：i）推理时的刻意推理程序，ii）模仿复杂的推理轨迹，以及 iii）基于 RL 的激励。如果您的目标是以最低的成本快速了解强大的 TTS 可以为您的任务带来的潜在上限，您可以直接使用已使用（iii）训练的模型。虽然传统的推理任务（如奥林匹克级别的数学、复杂的编码和基于游戏的挑战）已被证明可以显著改善 TTS，但社区观察表明，TTS 还可以提高开放式任务的性能，例如评论生成或评估。A：是的，一个直观的区别在于效率方面。A：没有免费的午餐。

2025-04-18 17:57:48 589

原创【论文笔记】RL在LLM中的落地方法

假设正确的推理过程有 5 步，分别构造已知前 4 步，推理最后 1 步，已知前 3 步，推理后 2 步，以此类推，难度逐渐提升的训练数据，这里的训练数据都可以通过面向结果的 reward model 来给出 reward，提升了奖励信号的密度。如Fig2所示，理想情况下，随着I轮数的增加，模型G步骤产生的策略，也能够获得更多Reward，提高最终数据集的数据质量，形成良性循环。很自然的想法，在一个问题中，采样正确的和错误的答案，然后将结果输入给模型让模型给出修改意见，最后模型能够纠正结果。

2025-04-07 10:43:29 1320 1

原创【论文笔记】Kimi 1.5 技术报告

和 DeepSeek-R1 一样强调 RL 的作用，但更强调 prompt 的重要性。

2025-04-02 11:33:54 790 1

原创【论文笔记】DeepSeek-R1 技术报告

顿悟时刻”在这个阶段，DeepSeek-R1-Zero 学会为问题分配更多的思考时间，通过重新评估其初始方法来实现。这种行为不仅是模型推理能力增长的证明，也是研究人员观察其行为的一个“顿悟时刻”。它突显了强化学习的力量和美丽：我们不是明确地教模型如何解决问题，而是仅仅提供正确的激励，模型就会自主发展出高级的问题解决策略。“顿悟时刻” 有力地提醒我们，RL 解锁人工系统中智力新水平的潜力，为未来更自主、更适应性强的模型铺平了道路。DeepSeek-R1-Zero 的缺点。

2025-04-02 11:25:46 1125 1

原创【论文笔记】Llama 3 技术报告

Llama 3中的顶级模型是一个拥有4050亿参数的密集Transformer模型，并且它的上下文窗口长度可以达到128,000个tokens。这意味着它能够处理非常长的文本，记住和理解更多的信息。Llama 3.1的论文长达92页，详细描述了模型的开发阶段、优化策略、模型架构、性能比较、新功能等。

2025-04-02 11:19:01 1187 1

原创离线强化学习（IQL/CQL）

ORL具有广泛的应用前景，尤其是在那些难以进行在线交互或存在安全限制的场景中。例如，在医疗领域，ORL可以利用历史病例数据来学习最佳治疗方案，而不需要对患者进行随机试验；在金融领域，ORL可以利用历史交易数据来学习最优投资策略，而不需要实时参与市场；在推荐系统领域，ORL可以利用历史用户行为数据来学习最优推荐策略，而不需要实时收集用户反馈。尽管ORL已经取得了一些进展，但仍然存在一些待解决的问题和挑战。如何解决这些挑战将是未来的研究方向。

2023-04-06 16:23:46 5381 1

原创【算法】用python代码解决“鬼谷问徒”问题

一天，鬼谷子随意从2-99中选取了两个数。他把这两个数的和告诉了庞涓，把这两个数的乘积告诉了孙膑，但孙膑和庞涓彼此不知到对方得到的数。第二天，庞涓很有自信的对孙膑说：虽然我不知到这两个数是什麽，但我知道你一定也不知道。随后，孙膑说：那我知道了。过一会儿，庞涓说：那我也知道了。

2023-02-20 21:42:44 1533

原创【学习笔记】远程服务器常用指令

汇总最近学到的远程服务器使用指令。

2023-01-10 16:01:36 2040

原创【面试】微软亚研院-离线强化学习实习岗面试总结

微软亚研院，强化学习实习岗位面试总结。

2022-10-17 20:44:14 1140 7

原创【面试】商汤研究院-游戏AI见习算法研究员面试总结

商汤研究院，面游戏AI算法岗，二面过后一个多月了，杳无音信。我默认流程结束了，就把面经发出来了。

2022-09-27 18:36:01 2284 5

原创【论文笔记】Population Based Training of Neural Networks（PBT）+ Real World Games Look Like Spinning Tops

谷歌DeepMind团队在2017年文章《Population Based Training of Neural Networks》中提出的PBT算法，看似比较简单和朴素，但是在实际应用中结果表现良好。

2022-08-30 17:23:19 2015

原创【踩坑记录】Linux系统下运行bash脚本提示/usr/bin/env: ‘bash\r’: No such file or directory

在linux远程服务器上，git clone一个项目，在环境配置阶段，需要运行`install.sh`。使用指令`./install.sh`后出现报错：

2022-08-30 14:21:48 862 2

原创【论文笔记】Neural Auto-Curricula (NAC)

论文发表于NeurIPS 2021，属于多智能体强化学习领域。目前我还没有找到介绍这篇paper的相关博客。写一点自己的心得就当作是抛砖引玉了。在多智能体强化学习训练过程中，常常会创建agent的种群，通过对“对手种群策略”的best response（BR）来更新迭代自身策略，如NFSP、Double Oracal等。在这种算法框架下，“与谁竞争”和“如何学习BR”就成了绕不过去的点。............

2022-08-25 19:50:36 775

原创【论文笔记】XDO: A Double Oracle Algorithm for Extensive-Form Games

论文发表于NeurIPS 2021，属于多智能体强化学习领域。目前我还没有找到介绍这篇paper的相关博客。写一点自己的心得就当作是抛砖引玉了。

2022-08-23 16:35:02 3065

原创【论文笔记】policy-space response oracles (PSRO)

这是一篇2017年发表的论文，属于多智能体强化学习领域和博弈论的交叉。在了解这篇文章之前，需要先弄清楚NFSP这类自博弈的概念。之前读这篇论文一直感觉有些看不懂，误以为PSRO和NFSP那一系列非常不一样，是自己不太能学会的新方向。在自己用类似RL+三脚猫self-play做了一个扑克AI算法后，再来重读文章就发现，其实很多地方的思想都是很朴素的，理解起来障碍也少了很多。吐槽一句，InRL会对对手的策略过拟合，自己动手做了才深有感触。...

2022-08-18 15:45:22 4367 4

原创【代码开发】docker查看并解除CPU数量限制

参数根据自己需要调整。

2022-07-21 15:16:17 5917 4

原创【代码开发】python一个终端运行多个进程

验证算法鲁棒性的时候，需要使用不同的10个随机种子，训练10个agent。如果串行运行的话，会导致程序运行时间变为原来的10倍。如果同时启用十个终端运行的话，手动操作起来会非常麻烦。使用python的库，在一个终端中运行多个进程。...

2022-07-21 14:57:51 941 2

原创【踩坑记录】docker内存被占满导致无法连接

在使用docker一段时间后突然出现某个容器进程挂掉，然后再去重新启动都会失败，这是可能需要看看是不是docker把磁盘占满了。下面详细介绍一下我遇到docker占满磁盘的一次经历。

2022-07-14 12:08:41 1338

原创【课程总结】2022中科大-数字图像分析-期末考试试卷回忆版及汇总

USTC-DIA-2022

2022-06-30 14:04:46 4528 8

原创【课程总结】2022中科大-组合数学-期末考试试题

2022中科大组合数学期末考试

2022-06-18 16:26:56 5011 14

原创【代码开发】RLCard平台强化学习模型训练入门

最近科研需要一个合适的牌类环境，经过调研RLCard最适合自己上手，更容易进行环境接口的改动。写一篇自己最近对RLCard平台开发过程中的一些“经验”吧。文章目录平台介绍安装代码结构平台介绍RLCard: A Toolkit for Reinforcement Learning in Card GamesRLCard is a toolkit for Reinforcement Learning (RL) in card games. It supports multiple card envir

2022-05-25 18:08:14 3676 1

原创【课程总结】数据网络协议基础-第六章流量和拥塞控制

整理自中国科大李辉老师《数据网络理论基础》课程相关材料。只有部分要点摘录。方便复习回顾。文章目录流量分析拥塞控制理论拥塞问题的产生拥塞控制与流量控制的区别控制方式实现方法窗口式流量和拥塞控制统一窗口拥塞控制漏斗式速率控制算法漏斗算法主动队列管理丢包主动队列管理（AQN）Random Early Detection (RED) 算法流量分析ON-OFF 源可以由最简单的生灭过程来实现，其计数值只能为 0和 1。不同状态下的生灭速率分别为根据该系统的全局平衡方程λP0 = µP1以及 P0

2022-05-12 20:24:11 1103 4

原创【代码开发】neuron_poker安装及简单使用

文章目录引子安装Anaconda安装环境及相关依赖运行代码引子最近调研了蛮多能跑德州扑克的平台，但有些代码太老，有些太过复杂，很难找到开源的、方便的代码供研究。最近发现neuron_poker，考虑安装的复杂程度、代码阅读难度、运行效率等因素，综合来看算是不错，而且还带有GUI界面，唯一的遗憾就是里面Keras和torch.keras混用，而我pytorch用的比较多，所以没有深入研究。本文简单介绍一下neuron_poker的安装及使用。这是一个用于强化学习研究德州扑克的环境，主要用于学术研究。gi

2022-05-05 14:34:14 1035 1

原创【论文笔记】DRL safety专题经典论文6篇

文章目录引子AI safety in RL高维约束策略优化（CPO）DDPG+SafeLayer人为干预降低专家信息的质量来节约成本自动重置+及时早停总结引子论文来自spinning up Key Papers in Deep RL的safety专题，也就是深度强化学习的安全方面。论文主要是讨论AI Safety这个话题的。这里的Safety倒不是科幻电影里的那种大危机，读过下面的第一篇文章就会明白，这里的safety更像是让agent在具有极度“风险厌恶”情况下进行决策。本文只做简单概述，并且文章顺

2022-05-04 20:08:21 1891

原创【代码开发】选择一维数组中最大的k个

现在回顾本文，其实就是一个因为不熟悉库函数而自己去实现的愚蠢故事。记住，下次自己想实现一些基础功能的时候，一定要先去看看能用上哪些库函数。文章目录目标函数实现优化改进优化后函数总结目标在自己写代码的时候，碰到一个蛮有意思的函数。有点像算法题，目标是用torch和numpy的库函数实现。先介绍一下函数的目标，就是从一个n行m列的数组中，选出每m个中最大的k个，返回一个n*k的数组，每个元素是对应k个元素的下标。返回下标可以乱序。def select_maxk(arr, pick_num=1)ar

2022-04-27 09:38:53 2130

原创【课程总结】数据网络协议基础-第五章路由算法

整理自中国科大李辉老师《数据网络理论基础》课程相关材料。只有部分要点摘录。方便复习回顾。文章目录通信网络的拓扑结构图论基础路由算法概论Floyed-Warshall 算法例题网络最大流、最小费用最大流算法用标号法求最大流算法步骤用标号法求最大流例题Ford-Fulkerson 方法的缺点通信网络的拓扑结构网络拓扑的本质就是利用图论技术将网络抽象化，并且使其表现形式更形象化。实际网络中的终端设备、交换设备和工作站都被抽象为拓扑图中的节点；网络设备间的物理连接线被抽象为拓扑图中的边。常见的网

2022-04-18 20:27:18 2493

原创【论文笔记】多智能体强化学习值分解基础论文5篇

IQL、COMA、VDN、QMIX、QTRAN算法大致思路梳理

2022-04-14 20:17:17 4760

原创【多智能体强化学习环境】SMAC环境配置安装

文章目录引子开始安装github上拉取文件修改install_sc2.sh文件安装SMAC手动安装SMAC地图包引子本文主要介绍多智能体强化学习环境：星际争霸二（SMAC）在linux环境docker上得安装。这里安装的环境来自这个链接：https://github.com/oxwhirl/pymarl因为我们在服务器上一般只有一个属于自己的docker，而且碍于网络问题，直接按照github上的教程安装是行不通的。这里我给出我自己安装的方法，以供参考。首先确保Linux系统中有git等基本的第三方

2022-04-13 20:15:03 5128

原创【论文笔记】RODE：为agent分配角色

文章目录引子模型结构介绍(a) 学习动作编码方式(b) 角色选择器表征(c ) 角色策略训练(d) 整体架构实验及消融实验总结引子论文标题：RODE: LEARNING ROLES TO DECOMPOSE MULTI-AGENT TASKS，ICLR2021。RODE的名字取自role的ro和decompose的de。论文链接：(ICLR 2021, https://arxiv.org/abs/2010.01523).代码链接：https://github.com/TonghanWang/RODE

2022-04-12 16:07:46 2000

原创【唠嗑】恰好读到一本好书，记录一下

文章目录引子初读此书第一印象再读一章试试读读自序读后感恰好在一个合适的时间，读到一本合适的书，有这么大的触动，真是一件幸运的事情。引子我是一个比较喜欢偷懒（走捷径）的人，包括学习上。大概半年前，我突发奇想，问一个同学有没有什么学习的诀窍。没想到他真的回复我了，他跟我推荐了一个app，他说上面的课程不错（避免广告嫌疑我就不说app名字了）。我抱着试一试的心态在上面注册了一个会员，可以听书。很多高手总结一本书的精华，然后半小时不到的时间内把精华说出来，听后自我感觉收获满满。之后一发不可收拾，每天一个人走

2022-04-07 19:41:47 709

原创【论文笔记】MOBA类游戏中的强化学习论文5篇

文章目录引子论文列表用AI打星际争霸（RTS）：Grandmaster level in StarCraft II using multi-agent reinforcement learning整体结构训练模型结构用AI打dota：Dota 2 with Large Scale Deep Reinforcement Learning, 2019整体模型网络结构值得一提的Surgery技术用AI打王者荣耀：Hierarchical Macro Strategy Model for MOBA Game AI，

2022-04-01 15:57:40 7348 2

原创【论文笔记】AP聚类算法解读

简单介绍理解成本较高却异常好用的聚类算法。

2022-04-01 10:28:01 2481

编译原理_TinyC_说明及初始代码.zip

四种排序算法时间记录（C语言实现快排归并插入大顶堆）

exp2_Tree.rar

空空如也