自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 强化学习:DDPG算法、PPO算法、SAC算法

使用确定性策略确定性策略直接将状态映射到一个具体的动作,而不是一个概率分布,如式所示。aμθ​s对应的策略梯度表达式如式所示。∇θ​Jθ≈Est​∼ρβ​​Q值随动作的变化率∇a​Qst​a​​​aμθ​st​​⋅动作随网络参数的变化率∇θ​μθ​st​​​​这就是确定性策略梯度(DeterministicPolicyGradient,DPG)算法的核心,其中ρβ是策略的初始分布。

2025-11-28 22:38:35 655

原创 强化学习:策略梯度、Actor-Critic算法

将策略𝜋参数化为𝜋𝜃⁡(𝑎|𝑠)使得策略变成一个处处可微的概率分布只要能定义出目标函数𝐽⁡(𝜋𝜃)并求出其梯度∇𝜃𝐽⁡(𝜋𝜃),就能利用梯度下降法来更新参数𝜃,从而使得策略𝜋𝜃逐步逼近最优策略𝜋∗。最大化长期回报1、基于轨迹概率密度方式2、基于平稳分布或状态分布方式,占用测度推导。

2025-11-24 23:10:35 886

原创 强化学习:DQN算法、DQN算法进阶

深度Q网络,就是将原先的线性目标Q函数变成神经网络Qst​at​←Qst​at​αrt​γamax​Q′st1​a−Qst​at​)]Qθ​st​at​←Qθ​st​at​αyt​−Qθ​st​at​)]最小化目标Q和实际Q之间的差距Lθθ​yt​−Qθ​st​at​2←θ−α∇θ​Lθ​。

2025-11-21 20:58:07 866

原创 强化学习:深度学习基础

价值函数表格𝑄⁡(𝑠,𝑎)价值函数近似表示Qsa;θθTϕsaQsa≈θ1​⋅ϕ1​saθ2​⋅ϕ2​saθ3​⋅ϕ3​sa...线性组合其他近似方法梯度下降θ←θ−α∇θ​Lθ​其中𝛼是学习率,控制参数更新的步长,∇𝜽𝐿⁡(𝜽)是损失函数关于参数的梯度。或者优化负的损失函数θ←θ−α∇θ​−Jθ))​梯度下降是最小化损失函数,如果需要将某个函数最大化,可以用梯度上升θ。

2025-11-16 15:34:42 494

原创 强化学习:蒙特卡洛、时序差分

通过大量随机采样近似估计期望或积分计算状态价值S1起点,S4重点,只能向右a1、向下a2轨迹就是 状态、动作、奖励τ1​s2​a2​rs2​a2​s4​​𝐺𝜏1 =𝑟⁡(𝑠2,𝑎2) =−1,因此 𝑉⁡(𝑠2) =𝐺𝜏1 =−1如果想求一个复杂的数学期望(或积分),而无法直接解析求解时,就可以用大量随机样本的平均值去逼近它。估计某个函数f(x)的期望EfX)]∫fxpxdx​近似采样步骤2.计算函数值的平均EfX)]N1。

2025-11-14 17:25:56 836

原创 强化学习:有模型,马尔可夫决策过程、动态规划

MDPSAPRγS是状态空间,表示所有可能的环境状态的集合A是动作空间,表示智能体可以选择的所有可能动作的集合P是状态转移概率矩阵,描述了在给定当前状态和动作的情况下,环境转移到下一个状态的概率分布R是奖励函数,定义了在特定状态下执行某个动作所获得的即时奖励𝛾是折扣因子,用于权衡当前奖励和未来奖励的重要性,其取值范围在 0到1之间。

2025-11-12 20:16:20 835

原创 Task6:CAMEL框架下的RAG应用

TF-IDF基于词频统计,无法捕捉词语之间的语义关系。增加计算结果转化成向量之后的余弦相似度。优点:精准捕捉语义和语境。缺点:计算资源消耗大。

2025-08-30 20:00:51 294

原创 Task5:CAMEL框架下的RAG应用

通过上述四个步骤(读取、转化、存储、检索),CAMEL框架的RAG应用能够协助大语言模型更准确地获取指定内容,为构建智能、高效的多智能体系统提供强大支持。参考链接。

2025-08-29 17:13:47 832

原创 Task04:CAMEL框架简介及实践

角色定义有三个• Assistant角色: 负责执行具体任务并提供解决方案的智能体• User角色: 负责提供指令和任务需求的智能体• 特定领域角色: 如程序员、交易员等专业角色。

2025-08-28 00:17:05 334

原创 Task3:CAMEL框架简介及实践

1、根据论文摘要,输出这个论文的三个学术领域关键词。4、根据论文正文内容,提取这篇论文解决问题的方法。3、根据论文正文内容,提取这篇论文要解决的问题。2、根据论文正文内容,提取这篇论文的研究背景。对每篇论文有4个任务。

2025-08-24 17:22:43 419

原创 Task2: 从零开始构建多智能体:Agent 的构成组件

https://github.com/camel-ai/camel/blob/master/docs/key_modules/models.md#2-supported-model-platforms-in-camel可以通过API来调用用哪种模型就需要对应的 api_key 和 url使用本地部署的模型OllamaModelFile 创建可以设置 temperature 、 system message创建模型时,创建的模型名称是 camel-qwen2.5使用如下代码可以调用本地模型vll

2025-08-23 02:30:02 669

原创 Task01: CAMEL环境配置及你的第一个Agent 学习笔记

使用。

2025-08-19 22:09:02 403

原创 Datawhale AI夏令营 基于带货视频评论的用户洞察挑战赛

使用大模型进行尝试len1len。

2025-07-13 20:03:49 196

原创 2021CSTCCTF MISC-wp(部分)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录RGBzipMemory_1Memory_2RGB1、打开文件发现每行三个255 联想题目应该是用RGB颜色画图2、网上搜索了脚本修改了一下,由于给的txt一共有28864行,进行了各种拆分,最后拆分成41*704时能够看到上下截断的flagfrom PIL import Imagex = 41y = 704im = Image.new("RGB",(y,x))file = open("./code.txt",

2021-05-06 20:43:13 1466

原创 2021“春秋杯“新年欢乐赛wp(部分)

文章目录1 签到5 十二宫的挑衅6 puzzle7 2019-nCoV1 签到操作内容:手写一个FUN放在摄像头前,即可出flag5 十二宫的挑衅操作内容:首先拿到一张图片,查找了一下十二宫的资料,看看是否相关,下载了AZ,并且按照真实的十二宫的解密方法解密。将图片中的密文延对角线重组^>%…@3*&#(#0+@#+.@53)8@+@$+&!%>^&.@36%&&4@?#<!=.9@=(#=@79@<~)8%=

2021-02-01 01:52:54 3426 11

原创 DJBCTF MISC writeup(部分)

目录牛年大吉十八般兵器碑寺六十四卦AA86请问大吉杯的签到是在这里签吗拼图v2.0牛年大吉首先下载下来一个vhd文件,是硬盘镜像文件,那就拖到DiskGenius恢复一下。得到一个!lag.7z的文件。翻阅一下里面的文件,还能找到一个png图片。将两个文件都拿出来,打开压缩包,发现里面的文件是加密的,hint提示密码在文件头里(注意是文件头里,不是文件里头!)然后拿png图片捣鼓了半天,最后发现密码真的就是PNG文件头。最后拿到flag。十八般兵器这题首先下载到一个没有后缀名的

2021-01-26 14:21:10 1250 1

原创 BUUCTF刷题记录

BUUCTF刷题记录[RoarCTF 2019]Easy Java[RoarCTF 2019]Easy Java一开始进来,什么也没给,点击help发现,url参数什么,页面输出什么java web框架可能存在WEB-INF/web.xml泄露因此首先读取get方法没用,需要用post方法下载了一个文件发现里面有不熟悉java不知道前面要加WEB-INF/classes后面就跟着上面的点把点改成斜杠就行了,最后要加.class文件中发现一串base64解码得到flag

2021-01-23 22:01:40 222 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除