时间大幻剧-优快云博客

原创强化学习：DDPG算法、PPO算法、SAC算法

使用确定性策略确定性策略直接将状态映射到一个具体的动作，而不是一个概率分布，如式所示。aμθs对应的策略梯度表达式如式所示。∇θJθ≈Est∼ρβQ值随动作的变化率∇aQstaaμθst⋅动作随网络参数的变化率∇θμθst这就是确定性策略梯度（DeterministicPolicyGradient，DPG）算法的核心，其中ρβ是策略的初始分布。

2025-11-28 22:38:35 655

原创强化学习：策略梯度、Actor-Critic算法

将策略𝜋参数化为𝜋𝜃⁡(𝑎|𝑠)使得策略变成一个处处可微的概率分布只要能定义出目标函数𝐽⁡(𝜋𝜃)并求出其梯度∇𝜃𝐽⁡(𝜋𝜃)，就能利用梯度下降法来更新参数𝜃，从而使得策略𝜋𝜃逐步逼近最优策略𝜋∗。最大化长期回报1、基于轨迹概率密度方式2、基于平稳分布或状态分布方式，占用测度推导。

2025-11-24 23:10:35 886

原创强化学习：DQN算法、DQN算法进阶

深度Q网络，就是将原先的线性目标Q函数变成神经网络Qstat←QstatαrtγamaxQ′st1a−Qstat)]Qθstat←Qθstatαyt−Qθstat)]最小化目标Q和实际Q之间的差距Lθθyt−Qθstat2←θ−α∇θLθ。

2025-11-21 20:58:07 866

原创强化学习：深度学习基础

价值函数表格𝑄⁡(𝑠,𝑎)价值函数近似表示Qsa;θθTϕsaQsa≈θ1⋅ϕ1saθ2⋅ϕ2saθ3⋅ϕ3sa...线性组合其他近似方法梯度下降θ←θ−α∇θLθ其中𝛼是学习率，控制参数更新的步长，∇𝜽𝐿⁡(𝜽)是损失函数关于参数的梯度。或者优化负的损失函数θ←θ−α∇θ−Jθ))梯度下降是最小化损失函数，如果需要将某个函数最大化，可以用梯度上升θ。

2025-11-16 15:34:42 494

通过大量随机采样近似估计期望或积分计算状态价值S1起点，S4重点，只能向右a1、向下a2轨迹就是状态、动作、奖励τ1s2a2rs2a2s4𝐺𝜏1 =𝑟⁡(𝑠2,𝑎2) =−1，因此 𝑉⁡(𝑠2) =𝐺𝜏1 =−1如果想求一个复杂的数学期望（或积分），而无法直接解析求解时，就可以用大量随机样本的平均值去逼近它。估计某个函数f(x)的期望EfX)]∫fxpxdx近似采样步骤2.计算函数值的平均EfX)]N1。

2025-11-14 17:25:56 836

原创强化学习：有模型，马尔可夫决策过程、动态规划

MDPSAPRγS是状态空间，表示所有可能的环境状态的集合A是动作空间，表示智能体可以选择的所有可能动作的集合P是状态转移概率矩阵，描述了在给定当前状态和动作的情况下，环境转移到下一个状态的概率分布R是奖励函数，定义了在特定状态下执行某个动作所获得的即时奖励𝛾是折扣因子，用于权衡当前奖励和未来奖励的重要性，其取值范围在 0到1之间。

2025-11-12 20:16:20 835

原创 Task6:CAMEL框架下的RAG应用

TF-IDF基于词频统计，无法捕捉词语之间的语义关系。增加计算结果转化成向量之后的余弦相似度。优点：精准捕捉语义和语境。缺点：计算资源消耗大。

2025-08-30 20:00:51 294

原创 Task5:CAMEL框架下的RAG应用

通过上述四个步骤（读取、转化、存储、检索），CAMEL框架的RAG应用能够协助大语言模型更准确地获取指定内容，为构建智能、高效的多智能体系统提供强大支持。参考链接。

2025-08-29 17:13:47 832

原创 Task04:CAMEL框架简介及实践

角色定义有三个• Assistant角色: 负责执行具体任务并提供解决方案的智能体• User角色: 负责提供指令和任务需求的智能体• 特定领域角色: 如程序员、交易员等专业角色。

2025-08-28 00:17:05 334

原创 Task3:CAMEL框架简介及实践

1、根据论文摘要，输出这个论文的三个学术领域关键词。4、根据论文正文内容，提取这篇论文解决问题的方法。3、根据论文正文内容，提取这篇论文要解决的问题。2、根据论文正文内容，提取这篇论文的研究背景。对每篇论文有4个任务。

2025-08-24 17:22:43 419

原创 Task2: 从零开始构建多智能体:Agent 的构成组件

https://github.com/camel-ai/camel/blob/master/docs/key_modules/models.md#2-supported-model-platforms-in-camel可以通过API来调用用哪种模型就需要对应的 api_key 和 url使用本地部署的模型OllamaModelFile 创建可以设置 temperature 、 system message创建模型时，创建的模型名称是 camel-qwen2.5使用如下代码可以调用本地模型vll

2025-08-23 02:30:02 669

原创 Task01: CAMEL环境配置及你的第一个Agent 学习笔记

使用。

2025-08-19 22:09:02 403

原创 Datawhale AI夏令营基于带货视频评论的用户洞察挑战赛

使用大模型进行尝试len1len。

2025-07-13 20:03:49 196

原创 2021CSTCCTF MISC-wp(部分)

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录RGBzipMemory_1Memory_2RGB1、打开文件发现每行三个255 联想题目应该是用RGB颜色画图2、网上搜索了脚本修改了一下，由于给的txt一共有28864行，进行了各种拆分，最后拆分成41*704时能够看到上下截断的flagfrom PIL import Imagex = 41y = 704im = Image.new("RGB",(y,x))file = open("./code.txt",

2021-05-06 20:43:13 1466

原创 2021“春秋杯“新年欢乐赛wp（部分）

文章目录1 签到5 十二宫的挑衅6 puzzle7 2019-nCoV1 签到操作内容：手写一个FUN放在摄像头前，即可出flag5 十二宫的挑衅操作内容：首先拿到一张图片，查找了一下十二宫的资料，看看是否相关，下载了AZ，并且按照真实的十二宫的解密方法解密。将图片中的密文延对角线重组^>%…@3*&#(#0+@#+.@53)8@+@$+&!%>^&.@36%&&4@?#<!=.9@=(#=@79@<~)8%=

2021-02-01 01:52:54 3426 11

原创 DJBCTF MISC writeup(部分)

目录牛年大吉十八般兵器碑寺六十四卦AA86请问大吉杯的签到是在这里签吗拼图v2.0牛年大吉首先下载下来一个vhd文件，是硬盘镜像文件，那就拖到DiskGenius恢复一下。得到一个!lag.7z的文件。翻阅一下里面的文件，还能找到一个png图片。将两个文件都拿出来，打开压缩包，发现里面的文件是加密的，hint提示密码在文件头里（注意是文件头里，不是文件里头！）然后拿png图片捣鼓了半天，最后发现密码真的就是PNG文件头。最后拿到flag。十八般兵器这题首先下载到一个没有后缀名的

2021-01-26 14:21:10 1250 1

原创 BUUCTF刷题记录

BUUCTF刷题记录[RoarCTF 2019]Easy Java[RoarCTF 2019]Easy Java一开始进来，什么也没给，点击help发现，url参数什么，页面输出什么java web框架可能存在WEB-INF/web.xml泄露因此首先读取get方法没用，需要用post方法下载了一个文件发现里面有不熟悉java不知道前面要加WEB-INF/classes后面就跟着上面的点把点改成斜杠就行了，最后要加.class文件中发现一串base64解码得到flag

2021-01-23 22:01:40 222 1

时间大幻剧的博客