自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 问答 (1)
  • 收藏
  • 关注

原创 R1-Searcher++基于强化学习的LLM动态知识获取

通过拒绝采样收集符合格式要求的数据,使用 SFT 进行冷启动训练,初步使模型学会自主使用外部检索,输出融合内外知识的格式化回答。RL阶段的训练样本:HotpotQAd的4561个样本和2wikiQA的3581个样本。**组奖励:**奖励正确且外部检索调用次数少的奖励,目的是减少对外部检索的过度依赖。SFT的训练数据:HotpotQAd的720个样本和2wikiQA的85个样本。1.选择 LLM 生成的正确响应,提取其中的检索文档。:RL用于动态知识的获取,鼓励内部知识的利用。

2025-06-30 17:44:19 739

原创 R1-Searcher使用强化学习增强语言模型解决问题的搜索能力

该框架采⽤两阶段结果监督 RL方法,通过设计的奖励机制,使模型能够在推理过程中学习调用外部搜索引擎以获取相关知识。使用在线检索测试域外数据,具体,使用 Google API 检索网页,并用 GPT-4o-mini 总结长网页内容后融入推理模型。面对不确定的问题,RL倾向于利用检索来寻找答案,而SFT则倾向于利用模型内部不正确的知识进行回答。相比于第一阶段的格式奖励,第二阶段加大了对格式的惩罚力度。第一阶段鼓励模型发起检索操作,并不关心模型答案的正确性。奖励包括两部分:检索奖励和格式奖励。

2025-06-30 17:30:52 464

原创 AutoGen框架的ReAct推理模式的多跳测试

选择合适的工具,执行动作向UserAgent发送动作结果,因为这里选择的是NEVER,所以Assistant不会接收反馈。然后使用工具搜索“马斯克”的出生地。特斯拉的 CEO 是埃隆·马斯克(Elon Musk)。:从一个已知信息点(或问题)出发,通过一次查询、推理或工具调用,获取下一个信息点。在多跳问答中,问题需要多个这样的“跳跃”来连接信息,最终得出答案。**内部推理:**基于模型的知识或上下文推理(例如,CoT)。第一跳:确定特斯拉的 CEO 是埃隆·马斯克。第二跳:查询埃隆·马斯克的出生地是南非。

2025-06-25 10:40:54 355

原创 网络攻击--DGA

总部(C&C)通过加密的无线电(隐蔽网络通信)向士兵(僵尸设备)发送作战命令(发动DDoS、窃取数据),并接收士兵发回的情报(窃取的数据、状态报告)。使得攻击者能够集中、远程、隐蔽地操纵大量被感染的设备,实施各种恶意行为。识别、阻断与C&C服务器的通信是防御僵尸网络攻击的关键。2.目标服务器为每个SYN包分配资源,回复SYN-ACK,并等待客服端最终的ACK。淹没目标服务器、网络或服务,使其无法正常响应合法用户请求的网络攻击方式。3.由于源IP是伪造的,所以服务器不会收到最终的ACK回复,导致。

2025-06-20 17:11:39 417

原创 CoAct

CoAct :A Global-Local Hierarchy for Autonomous Agent Collaboration(全局-局部分层协作用于自主智能体协作)说明CoAct同样会随着交互轮次的增加积累无用信息产生幻觉和循环错误。单一智能体决策随着任务变得愈加复杂和冗长,容易出现记忆和规划深度的限制。但是这篇论文提到CoAct 引入了。

2025-06-20 16:44:18 412

原创 ReAct

由于语言空间L是没有约束的,也就是说LLM语言形式的思考如果不加约束的话,容易产生幻觉。**形式化:**agent在环境中接收当前状态ot,然后基于某种策略\phi(at|ct)产生动作at,与环境交互;现有的LLM的推理(语言理解)和行动(行为决策)这两个能力虽然足够强大,但是这两个方面是割裂的。,以**“思考-动作-观察”**的方式执行任务。让模型在工作时解释其推理过程,使智能体的决策过程对人类更加透明,提高了其行为的可解释性和可信度。**ReAct的实现方式:**也是以Promopt提示的方式实现。

2025-06-20 16:39:21 318

原创 NiN模型(Network in Network)

抽象能力低,当特征是高度非线性的时,往往会选择各种各样的滤波器来提取尽可能多的各样的特征,这样就会最大可能的提取到我们想要的特征,但是这样会导致。引入NiN块(由一个CNN层和两个1x1卷积层组成的块),增加局部视野下神经元的。注:通用的函数近似/逼近器:径向基函数网络(RBF)、多层感知机(MLP)如VGG、AlexNet网络,网络的参数量主要集中在最后的全连接层。故对传统的CNN网络 ,如VGG、AlexNet等,提出了。引入全局平均池化层代替卷积层后面的全连接层,传统的CNN网络中卷积层的卷积核是。

2023-07-22 16:56:09 224

原创 Python内存管理与垃圾回收

※※引用计数器为主,标记清除和分代回收为辅+缓存机制。

2023-01-13 20:13:32 196

原创 数据结构力扣学习--二叉树总结

力扣过去几天做过的题目总结:暂时留下这两个异类不做整理。213. 打家劫舍 II337. 打家劫舍 III一、分治法(大问题化作小问题):114. 二叉树展开为链表方法1:(不详细说)①先按照先序遍历把遍历的顺序保存到数组中②遍历数组,构建链表。方法2:将整颗数展开成列表,我们可以大问题化作小问题:①将左子树展开成列表②将右子树展开成列表③根节点的左右孩子再展开成列表代码:var flatten = function (root) { if (root == null)

2022-01-20 22:27:17 484

原创 [强化学习]一文带你理清从Q-Learning到DDPG(Deep Deterministic Policy Gradient)算法思想

[强化学习]一文带你理清从Q-Learning到DDPG(Deep Deterministic Policy Gradient)算法思想强化学习的五大要素:State、Action、Reward、Discount factor (r)、P 转移概率。Q-Learning思想过程Q-learning是强化学习中基于价值的算法,是一种off-policy、免模型策略。Q-Learning就是在环境的某一个时刻的状态(state)下,采取动作集中的一个动作a能够获得收益的期望,环境会根据agent的动

2021-11-05 11:21:22 3164

原创 王道-操作系统

操作系统的概念操作系统的基本特征

2021-07-13 18:11:56 2108 1

数值分析实验报告(C语言版本)

实验一:线性方程组的Doolittle分解法解线性方程组 实验二:实验二 线性方程组的迭代法 实验三 :拉格朗日插值和牛顿插值 实验四 :非线性方程的近似解-二分法求非线性方程的根 实验五: 曲线拟合问题-最小二乘法 实验六 :数值积分-复化辛普森公式 实验七: 求解常微分方程的初值问题-改进欧拉方法 内含所有完整代码与实验文档

2023-06-01

C++学生信息管理系统(内附完整代码与文档)

C++学生信息管理系统(内附完整代码与文档)

2023-06-01

安徽大学计算机考研834初试真题(2013-2020)

安徽大学计算机考研834初试真题(2013-2020)

2023-06-01

电子科技大学820计算机考研初试真题及参考答案(2001年-2021年)pdf

电子科技大学820计算机考研初试真题及参考答案(2001年-2021年)以及期末考试试卷

2023-06-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除