- 博客(11)
- 问答 (1)
- 收藏
- 关注
原创 R1-Searcher++基于强化学习的LLM动态知识获取
通过拒绝采样收集符合格式要求的数据,使用 SFT 进行冷启动训练,初步使模型学会自主使用外部检索,输出融合内外知识的格式化回答。RL阶段的训练样本:HotpotQAd的4561个样本和2wikiQA的3581个样本。**组奖励:**奖励正确且外部检索调用次数少的奖励,目的是减少对外部检索的过度依赖。SFT的训练数据:HotpotQAd的720个样本和2wikiQA的85个样本。1.选择 LLM 生成的正确响应,提取其中的检索文档。:RL用于动态知识的获取,鼓励内部知识的利用。
2025-06-30 17:44:19
739
原创 R1-Searcher使用强化学习增强语言模型解决问题的搜索能力
该框架采⽤两阶段结果监督 RL方法,通过设计的奖励机制,使模型能够在推理过程中学习调用外部搜索引擎以获取相关知识。使用在线检索测试域外数据,具体,使用 Google API 检索网页,并用 GPT-4o-mini 总结长网页内容后融入推理模型。面对不确定的问题,RL倾向于利用检索来寻找答案,而SFT则倾向于利用模型内部不正确的知识进行回答。相比于第一阶段的格式奖励,第二阶段加大了对格式的惩罚力度。第一阶段鼓励模型发起检索操作,并不关心模型答案的正确性。奖励包括两部分:检索奖励和格式奖励。
2025-06-30 17:30:52
464
原创 AutoGen框架的ReAct推理模式的多跳测试
选择合适的工具,执行动作向UserAgent发送动作结果,因为这里选择的是NEVER,所以Assistant不会接收反馈。然后使用工具搜索“马斯克”的出生地。特斯拉的 CEO 是埃隆·马斯克(Elon Musk)。:从一个已知信息点(或问题)出发,通过一次查询、推理或工具调用,获取下一个信息点。在多跳问答中,问题需要多个这样的“跳跃”来连接信息,最终得出答案。**内部推理:**基于模型的知识或上下文推理(例如,CoT)。第一跳:确定特斯拉的 CEO 是埃隆·马斯克。第二跳:查询埃隆·马斯克的出生地是南非。
2025-06-25 10:40:54
355
原创 网络攻击--DGA
总部(C&C)通过加密的无线电(隐蔽网络通信)向士兵(僵尸设备)发送作战命令(发动DDoS、窃取数据),并接收士兵发回的情报(窃取的数据、状态报告)。使得攻击者能够集中、远程、隐蔽地操纵大量被感染的设备,实施各种恶意行为。识别、阻断与C&C服务器的通信是防御僵尸网络攻击的关键。2.目标服务器为每个SYN包分配资源,回复SYN-ACK,并等待客服端最终的ACK。淹没目标服务器、网络或服务,使其无法正常响应合法用户请求的网络攻击方式。3.由于源IP是伪造的,所以服务器不会收到最终的ACK回复,导致。
2025-06-20 17:11:39
417
原创 CoAct
CoAct :A Global-Local Hierarchy for Autonomous Agent Collaboration(全局-局部分层协作用于自主智能体协作)说明CoAct同样会随着交互轮次的增加积累无用信息产生幻觉和循环错误。单一智能体决策随着任务变得愈加复杂和冗长,容易出现记忆和规划深度的限制。但是这篇论文提到CoAct 引入了。
2025-06-20 16:44:18
412
原创 ReAct
由于语言空间L是没有约束的,也就是说LLM语言形式的思考如果不加约束的话,容易产生幻觉。**形式化:**agent在环境中接收当前状态ot,然后基于某种策略\phi(at|ct)产生动作at,与环境交互;现有的LLM的推理(语言理解)和行动(行为决策)这两个能力虽然足够强大,但是这两个方面是割裂的。,以**“思考-动作-观察”**的方式执行任务。让模型在工作时解释其推理过程,使智能体的决策过程对人类更加透明,提高了其行为的可解释性和可信度。**ReAct的实现方式:**也是以Promopt提示的方式实现。
2025-06-20 16:39:21
318
原创 NiN模型(Network in Network)
抽象能力低,当特征是高度非线性的时,往往会选择各种各样的滤波器来提取尽可能多的各样的特征,这样就会最大可能的提取到我们想要的特征,但是这样会导致。引入NiN块(由一个CNN层和两个1x1卷积层组成的块),增加局部视野下神经元的。注:通用的函数近似/逼近器:径向基函数网络(RBF)、多层感知机(MLP)如VGG、AlexNet网络,网络的参数量主要集中在最后的全连接层。故对传统的CNN网络 ,如VGG、AlexNet等,提出了。引入全局平均池化层代替卷积层后面的全连接层,传统的CNN网络中卷积层的卷积核是。
2023-07-22 16:56:09
224
原创 数据结构力扣学习--二叉树总结
力扣过去几天做过的题目总结:暂时留下这两个异类不做整理。213. 打家劫舍 II337. 打家劫舍 III一、分治法(大问题化作小问题):114. 二叉树展开为链表方法1:(不详细说)①先按照先序遍历把遍历的顺序保存到数组中②遍历数组,构建链表。方法2:将整颗数展开成列表,我们可以大问题化作小问题:①将左子树展开成列表②将右子树展开成列表③根节点的左右孩子再展开成列表代码:var flatten = function (root) { if (root == null)
2022-01-20 22:27:17
484
原创 [强化学习]一文带你理清从Q-Learning到DDPG(Deep Deterministic Policy Gradient)算法思想
[强化学习]一文带你理清从Q-Learning到DDPG(Deep Deterministic Policy Gradient)算法思想强化学习的五大要素:State、Action、Reward、Discount factor (r)、P 转移概率。Q-Learning思想过程Q-learning是强化学习中基于价值的算法,是一种off-policy、免模型策略。Q-Learning就是在环境的某一个时刻的状态(state)下,采取动作集中的一个动作a能够获得收益的期望,环境会根据agent的动
2021-11-05 11:21:22
3164
数值分析实验报告(C语言版本)
2023-06-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人