- 博客(17)
- 收藏
- 关注
原创 强化学习:DDPG算法、PPO算法、SAC算法
使用确定性策略确定性策略直接将状态映射到一个具体的动作,而不是一个概率分布,如式所示。aμθs对应的策略梯度表达式如式所示。∇θJθ≈Est∼ρβQ值随动作的变化率∇aQstaaμθst⋅动作随网络参数的变化率∇θμθst这就是确定性策略梯度(DeterministicPolicyGradient,DPG)算法的核心,其中ρβ是策略的初始分布。
2025-11-28 22:38:35
655
原创 强化学习:策略梯度、Actor-Critic算法
将策略𝜋参数化为𝜋𝜃(𝑎|𝑠)使得策略变成一个处处可微的概率分布只要能定义出目标函数𝐽(𝜋𝜃)并求出其梯度∇𝜃𝐽(𝜋𝜃),就能利用梯度下降法来更新参数𝜃,从而使得策略𝜋𝜃逐步逼近最优策略𝜋∗。最大化长期回报1、基于轨迹概率密度方式2、基于平稳分布或状态分布方式,占用测度推导。
2025-11-24 23:10:35
886
原创 强化学习:DQN算法、DQN算法进阶
深度Q网络,就是将原先的线性目标Q函数变成神经网络Qstat←QstatαrtγamaxQ′st1a−Qstat)]Qθstat←Qθstatαyt−Qθstat)]最小化目标Q和实际Q之间的差距Lθθyt−Qθstat2←θ−α∇θLθ。
2025-11-21 20:58:07
866
原创 强化学习:深度学习基础
价值函数表格𝑄(𝑠,𝑎)价值函数近似表示Qsa;θθTϕsaQsa≈θ1⋅ϕ1saθ2⋅ϕ2saθ3⋅ϕ3sa...线性组合其他近似方法梯度下降θ←θ−α∇θLθ其中𝛼是学习率,控制参数更新的步长,∇𝜽𝐿(𝜽)是损失函数关于参数的梯度。或者优化负的损失函数θ←θ−α∇θ−Jθ))梯度下降是最小化损失函数,如果需要将某个函数最大化,可以用梯度上升θ。
2025-11-16 15:34:42
494
原创 强化学习:蒙特卡洛、时序差分
通过大量随机采样近似估计期望或积分计算状态价值S1起点,S4重点,只能向右a1、向下a2轨迹就是 状态、动作、奖励τ1s2a2rs2a2s4𝐺𝜏1 =𝑟(𝑠2,𝑎2) =−1,因此 𝑉(𝑠2) =𝐺𝜏1 =−1如果想求一个复杂的数学期望(或积分),而无法直接解析求解时,就可以用大量随机样本的平均值去逼近它。估计某个函数f(x)的期望EfX)]∫fxpxdx近似采样步骤2.计算函数值的平均EfX)]N1。
2025-11-14 17:25:56
836
原创 强化学习:有模型,马尔可夫决策过程、动态规划
MDPSAPRγS是状态空间,表示所有可能的环境状态的集合A是动作空间,表示智能体可以选择的所有可能动作的集合P是状态转移概率矩阵,描述了在给定当前状态和动作的情况下,环境转移到下一个状态的概率分布R是奖励函数,定义了在特定状态下执行某个动作所获得的即时奖励𝛾是折扣因子,用于权衡当前奖励和未来奖励的重要性,其取值范围在 0到1之间。
2025-11-12 20:16:20
835
原创 Task6:CAMEL框架下的RAG应用
TF-IDF基于词频统计,无法捕捉词语之间的语义关系。增加计算结果转化成向量之后的余弦相似度。优点:精准捕捉语义和语境。缺点:计算资源消耗大。
2025-08-30 20:00:51
294
原创 Task5:CAMEL框架下的RAG应用
通过上述四个步骤(读取、转化、存储、检索),CAMEL框架的RAG应用能够协助大语言模型更准确地获取指定内容,为构建智能、高效的多智能体系统提供强大支持。参考链接。
2025-08-29 17:13:47
832
原创 Task04:CAMEL框架简介及实践
角色定义有三个• Assistant角色: 负责执行具体任务并提供解决方案的智能体• User角色: 负责提供指令和任务需求的智能体• 特定领域角色: 如程序员、交易员等专业角色。
2025-08-28 00:17:05
334
原创 Task3:CAMEL框架简介及实践
1、根据论文摘要,输出这个论文的三个学术领域关键词。4、根据论文正文内容,提取这篇论文解决问题的方法。3、根据论文正文内容,提取这篇论文要解决的问题。2、根据论文正文内容,提取这篇论文的研究背景。对每篇论文有4个任务。
2025-08-24 17:22:43
419
原创 Task2: 从零开始构建多智能体:Agent 的构成组件
https://github.com/camel-ai/camel/blob/master/docs/key_modules/models.md#2-supported-model-platforms-in-camel可以通过API来调用用哪种模型就需要对应的 api_key 和 url使用本地部署的模型OllamaModelFile 创建可以设置 temperature 、 system message创建模型时,创建的模型名称是 camel-qwen2.5使用如下代码可以调用本地模型vll
2025-08-23 02:30:02
669
原创 2021CSTCCTF MISC-wp(部分)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录RGBzipMemory_1Memory_2RGB1、打开文件发现每行三个255 联想题目应该是用RGB颜色画图2、网上搜索了脚本修改了一下,由于给的txt一共有28864行,进行了各种拆分,最后拆分成41*704时能够看到上下截断的flagfrom PIL import Imagex = 41y = 704im = Image.new("RGB",(y,x))file = open("./code.txt",
2021-05-06 20:43:13
1466
原创 2021“春秋杯“新年欢乐赛wp(部分)
文章目录1 签到5 十二宫的挑衅6 puzzle7 2019-nCoV1 签到操作内容:手写一个FUN放在摄像头前,即可出flag5 十二宫的挑衅操作内容:首先拿到一张图片,查找了一下十二宫的资料,看看是否相关,下载了AZ,并且按照真实的十二宫的解密方法解密。将图片中的密文延对角线重组^>%…@3*&#(#0+@#+.@53)8@+@$+&!%>^&.@36%&&4@?#<!=.9@=(#=@79@<~)8%=
2021-02-01 01:52:54
3426
11
原创 DJBCTF MISC writeup(部分)
目录牛年大吉十八般兵器碑寺六十四卦AA86请问大吉杯的签到是在这里签吗拼图v2.0牛年大吉首先下载下来一个vhd文件,是硬盘镜像文件,那就拖到DiskGenius恢复一下。得到一个!lag.7z的文件。翻阅一下里面的文件,还能找到一个png图片。将两个文件都拿出来,打开压缩包,发现里面的文件是加密的,hint提示密码在文件头里(注意是文件头里,不是文件里头!)然后拿png图片捣鼓了半天,最后发现密码真的就是PNG文件头。最后拿到flag。十八般兵器这题首先下载到一个没有后缀名的
2021-01-26 14:21:10
1250
1
原创 BUUCTF刷题记录
BUUCTF刷题记录[RoarCTF 2019]Easy Java[RoarCTF 2019]Easy Java一开始进来,什么也没给,点击help发现,url参数什么,页面输出什么java web框架可能存在WEB-INF/web.xml泄露因此首先读取get方法没用,需要用post方法下载了一个文件发现里面有不熟悉java不知道前面要加WEB-INF/classes后面就跟着上面的点把点改成斜杠就行了,最后要加.class文件中发现一串base64解码得到flag
2021-01-23 22:01:40
222
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅