- 博客(8)
- 收藏
- 关注
原创 策略梯度方法之TRPO(个人笔记)
本文主要介绍了策略梯度方法中的TRPO(Trust Region Policy Optimization)算法。TRPO通过最大化期望回报来优化策略,同时解决传统策略梯度方法中步长过大导致的策略振荡问题。作者详细推导了TRPO的数学基础,包括替代函数和KL散度的应用,并展示了如何将优化问题转化为近似求解的形式。最终,TRPO通过约束策略更新的幅度(用KL散度衡量),确保策略稳定改进。文章还讨论了使用泰勒展开和KKT条件进行问题求解的方法,为策略优化提供了理论保证。
2025-11-14 12:12:20
890
原创 DQN介绍及代码实战
DQN是一种结合深度神经网络与Q学习的强化学习方法,主要解决了传统Q学习状态空间过大和连续状态处理难题。项目以CartPole-v1环境为例,详细说明了DQN的实现过程:通过引入经验回放机制打破数据相关性,使用双网络(在线网络和目标网络)稳定训练,并给出了神经网络和Replay Buffer的具体实现代码。该方法能够有效处理连续状态空间问题,为强化学习提供了实用解决方案。
2025-11-08 10:55:21
586
原创 Python+CPLEX
以下先提出一个例子,再指出里面涉及的API:例如求解以下优化问题objective:maxz2x13x2s.tx1x2≤8x1≤4x2≤4x1x2≥0。
2025-07-31 20:03:33
789
原创 MongoDB的增删改查
MongoDB是一个基于文档(document)的NoSQL数据库。它的增删改查不像关系数据库中的SQL语句那样浅显易懂,因此写下这篇markdown帮助自己系统性的了解MongoDB相关语句。
2025-04-24 17:54:33
390
原创 PageRank算法
PageRank算法由Larry Page和Sergey Brin在1966年提出,通过捕捉互联网上的页面之间的相互链接关系来确定一个页面的重要性,这也为此后的Google搜索引擎奠定了基础。 那么PageRank算法是应用到搜索引擎中的呢? 对于一个搜索引擎,用户会输入关键词,如果采用“利用用户输入的关键词与文档的关键词进行匹配”的方法,往往非常耗时。
2025-04-16 20:28:11
1216
原创 遗传算法(Genetic algorithm)
遗传算法是模拟自然进化过程的优化方法,其核心组成部分包括个体编码、种群、适应度值以及选择、交叉和变异三大操作。文章详细介绍了二进制编码、格雷编码等编码方式,以及轮盘赌、锦标赛等选择策略,并阐述了单点交叉、两点交叉等交叉方法和高斯突变等变异操作。特别强调了编码选择对后续算子设计的重要性,并指出针对不同问题需要调整算法组件。文章还通过实例说明部分匹配交叉在解决TSP问题中的优势,最后提醒读者应根据具体问题定制算法实现。
2025-03-02 20:39:19
2398
原创 ALNS自适应大邻域局部搜索算法
ALNS自适应大邻域局部搜索算法(Adaptive Large Neighborhood Search)是一种元启发式算法。ALNS算法结合了离散优化中的邻域搜索和元启发式算法的特点。元启发式算法是启发式算法的泛化形式,通常用于解决组合优化(也叫离散优化的问题,在有限个可能解的集合中找出最优解的优化问题)的问题,常见的元启发式算法包括遗传算法、模拟退火算法、粒子群优化算法等。启发式算法,是指通过启发式信息来指导搜索过程,以找到问题的近似最优解。
2024-11-14 10:28:43
2373
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅