张晓丽--优快云博客

原创 R1-Searcher++基于强化学习的LLM动态知识获取

通过拒绝采样收集符合格式要求的数据，使用 SFT 进行冷启动训练，初步使模型学会自主使用外部检索，输出融合内外知识的格式化回答。RL阶段的训练样本：HotpotQAd的4561个样本和2wikiQA的3581个样本。**组奖励：**奖励正确且外部检索调用次数少的奖励，目的是减少对外部检索的过度依赖。SFT的训练数据：HotpotQAd的720个样本和2wikiQA的85个样本。1.选择 LLM 生成的正确响应，提取其中的检索文档。：RL用于动态知识的获取，鼓励内部知识的利用。

2025-06-30 17:44:19 739

原创 R1-Searcher使用强化学习增强语言模型解决问题的搜索能力

该框架采⽤两阶段结果监督 RL方法，通过设计的奖励机制，使模型能够在推理过程中学习调用外部搜索引擎以获取相关知识。使用在线检索测试域外数据，具体，使用 Google API 检索网页，并用 GPT-4o-mini 总结长网页内容后融入推理模型。面对不确定的问题，RL倾向于利用检索来寻找答案，而SFT则倾向于利用模型内部不正确的知识进行回答。相比于第一阶段的格式奖励，第二阶段加大了对格式的惩罚力度。第一阶段鼓励模型发起检索操作，并不关心模型答案的正确性。奖励包括两部分：检索奖励和格式奖励。

2025-06-30 17:30:52 464

原创 AutoGen框架的ReAct推理模式的多跳测试

选择合适的工具，执行动作向UserAgent发送动作结果，因为这里选择的是NEVER，所以Assistant不会接收反馈。然后使用工具搜索“马斯克”的出生地。特斯拉的 CEO 是埃隆·马斯克（Elon Musk）。：从一个已知信息点（或问题）出发，通过一次查询、推理或工具调用，获取下一个信息点。在多跳问答中，问题需要多个这样的“跳跃”来连接信息，最终得出答案。**内部推理：**基于模型的知识或上下文推理（例如，CoT）。第一跳：确定特斯拉的 CEO 是埃隆·马斯克。第二跳：查询埃隆·马斯克的出生地是南非。

2025-06-25 10:40:54 356

原创网络攻击--DGA

总部（C&C）通过加密的无线电（隐蔽网络通信）向士兵（僵尸设备）发送作战命令（发动DDoS、窃取数据），并接收士兵发回的情报（窃取的数据、状态报告）。使得攻击者能够集中、远程、隐蔽地操纵大量被感染的设备，实施各种恶意行为。识别、阻断与C&C服务器的通信是防御僵尸网络攻击的关键。2.目标服务器为每个SYN包分配资源，回复SYN-ACK，并等待客服端最终的ACK。淹没目标服务器、网络或服务，使其无法正常响应合法用户请求的网络攻击方式。3.由于源IP是伪造的，所以服务器不会收到最终的ACK回复，导致。

2025-06-20 17:11:39 419

原创 CoAct

CoAct ：A Global-Local Hierarchy for Autonomous Agent Collaboration（全局-局部分层协作用于自主智能体协作）说明CoAct同样会随着交互轮次的增加积累无用信息产生幻觉和循环错误。单一智能体决策随着任务变得愈加复杂和冗长，容易出现记忆和规划深度的限制。但是这篇论文提到CoAct 引入了。

2025-06-20 16:44:18 413

原创 ReAct

由于语言空间L是没有约束的，也就是说LLM语言形式的思考如果不加约束的话，容易产生幻觉。**形式化:**agent在环境中接收当前状态ot，然后基于某种策略\phi(at|ct)产生动作at，与环境交互；现有的LLM的推理（语言理解）和行动（行为决策）这两个能力虽然足够强大，但是这两个方面是割裂的。，以**“思考-动作-观察”**的方式执行任务。让模型在工作时解释其推理过程，使智能体的决策过程对人类更加透明，提高了其行为的可解释性和可信度。**ReAct的实现方式：**也是以Promopt提示的方式实现。

2025-06-20 16:39:21 319

原创 NiN模型(Network in Network)

抽象能力低，当特征是高度非线性的时，往往会选择各种各样的滤波器来提取尽可能多的各样的特征，这样就会最大可能的提取到我们想要的特征，但是这样会导致。引入NiN块(由一个CNN层和两个1x1卷积层组成的块)，增加局部视野下神经元的。注：通用的函数近似/逼近器：径向基函数网络（RBF）、多层感知机（MLP）如VGG、AlexNet网络，网络的参数量主要集中在最后的全连接层。故对传统的CNN网络，如VGG、AlexNet等，提出了。引入全局平均池化层代替卷积层后面的全连接层，传统的CNN网络中卷积层的卷积核是。

2023-07-22 16:56:09 226

原创 Python内存管理与垃圾回收

※※引用计数器为主，标记清除和分代回收为辅+缓存机制。

2023-01-13 20:13:32 197

原创数据结构力扣学习--二叉树总结

力扣过去几天做过的题目总结：暂时留下这两个异类不做整理。213. 打家劫舍 II337. 打家劫舍 III一、分治法(大问题化作小问题)：114. 二叉树展开为链表方法1：（不详细说）①先按照先序遍历把遍历的顺序保存到数组中②遍历数组，构建链表。方法2：将整颗数展开成列表，我们可以大问题化作小问题：①将左子树展开成列表②将右子树展开成列表③根节点的左右孩子再展开成列表代码：var flatten = function (root) { if (root == null)

2022-01-20 22:27:17 484

原创 [强化学习]一文带你理清从Q-Learning到DDPG(Deep Deterministic Policy Gradient)算法思想

[强化学习]一文带你理清从Q-Learning到DDPG(Deep Deterministic Policy Gradient)算法思想强化学习的五大要素：State、Action、Reward、Discount factor （r）、P 转移概率。Q-Learning思想过程Q-learning是强化学习中基于价值的算法，是一种off-policy、免模型策略。Q-Learning就是在环境的某一个时刻的状态(state)下，采取动作集中的一个动作a能够获得收益的期望，环境会根据agent的动

2021-11-05 11:21:22 3168

原创王道-操作系统

操作系统的概念操作系统的基本特征

2021-07-13 18:11:56 2109 1

数值分析实验报告（C语言版本）

实验一：线性方程组的Doolittle分解法解线性方程组实验二：实验二线性方程组的迭代法实验三：拉格朗日插值和牛顿插值实验四：非线性方程的近似解-二分法求非线性方程的根实验五：曲线拟合问题-最小二乘法实验六：数值积分-复化辛普森公式实验七：求解常微分方程的初值问题-改进欧拉方法内含所有完整代码与实验文档

2023-06-01