- 博客(21)
- 收藏
- 关注
原创 4.5 Q-learning 算法
Q-learning 是一种基于时序差分(Temporal Difference, TD)的无模型强化学习算法,它的目标是学习一个动作价值函数 (QsaQ(s, a)Qsa),表示在状态 (sss) 下执行动作 (aaa) 的预期累积奖励(考虑折扣因子)。与 Sarsa 不同,Q-learning 是一种**离线策略(off-policy)**算法,这意味着它使用的行为策略(探索策略)和目标策略(用于评估和优化的策略)可以不同。Q-learning 的核心思想是通过迭代更新 (Qs。
2025-04-02 16:06:47
504
原创 4.4 多步Sarsa算法
单步SarsaSarsaSarsaGtrtγQst1at1GtrtγQst1at1其中,(rtr_trt) 是当前步的奖励,(γ\gammaγ) 是折扣因子,(Qst1at1Qst1at1) 是下一个状态-动作对的价值估计。多步SarsaSarsaSarsa扩展了这一定义,考虑 (nnnGtrtγrt1⋯γnQstn。
2025-04-02 16:05:54
579
原创 4.3 SARSA算法
SarsaSarsaSarsa是一种简单而有效的强化学习算法,通过时序差分和εεε-贪婪策略实现了无需模型的策略学习。它在悬崖漫步等环境中表现良好,能够平衡探索与利用,最终收敛到较优策略。
2025-04-02 16:05:13
615
原创 4.2 时序差分算法
第2步:从s=1向右移动,到达终点s=15,奖励r=+10。第1步:从状态s=0向右移动,到达s=1,奖励r=-1。:随着训练逐步减小ε(如从1.0降到0.01)。表示当前估计与更准确估计之间的差异。初始时,所有状态值V(s)=0。值函数逐步向高奖励方向传播。时序差分算法是强化学习中。
2025-04-02 15:08:15
824
原创 4.1 无模型强化学习
架起了从理论到实践的桥梁。后续章节将深入解析TD算法的变体、深度强化学习的实现细节,以及如何应对实际应用中的挑战(如稀疏奖励、高维输入)。,摆脱了对精确环境模型的依赖,成为解决现实复杂问题的核心工具。时序差分算法作为其理论基石,以。特点:遵循当前策略选择动作,强调“在策略(On-Policy)”学习。特点:学习最优策略,允许使用历史数据(Off-Policy)。
2025-04-02 15:02:28
766
原创 2.2 约束满足问题的求解
约束满足问题 (CSPs) 通常通过一种称为回溯搜索 (Backtracking Search)的算法来求解。回溯搜索是对深度优先搜索 (DFS)的优化,专门针对 CSP 的特性设计。它的核心思想是逐步为变量赋值,并在发现冲突时回溯到之前的选择进行调整。固定变量赋值顺序为变量选择一个固定的顺序,然后按此顺序逐一赋值。由于 CSP 中变量赋值的顺序不影响最终结果(赋值是可交换的,例如 (WARedNTGreenWARedNTGreen) 和 (NTGr。
2025-04-02 14:01:42
815
原创 3.6 蒙特卡洛树搜索(MCTS)
通过 MCTS,可以在不依赖显式剪枝的情况下,高效处理大规模搜索问题,尤其适合复杂和非确定性环境中的决策优化。:从根节点出发,根据当前策略选择子节点,直到到达一个未完全展开的节点。
2025-04-02 13:58:05
642
原创 3.4 Alpha-Beta 更新逻辑
Alpha-Beta 剪枝通过维护两个边界值。,因此不断更新 α 为已知的最高收益值。,因此不断更新 β 为已知的最低损失值。Max层 α=3 β=5。Min层 α=3 β=5。Min层 α=3 β=5。Min层 α=2 β=6。Max层 α=2 β=6。Max层 α=2 β=6。
2025-04-02 13:56:37
888
原创 3.3 Alpha-Beta剪枝
通过 Alpha-Beta 剪枝,可以显著提升 Minimax 算法的效率,使其在复杂游戏中具备实际应用价值。Minimax 算法的时间复杂度为 (:快速估算非终局状态的价值。,将时间复杂度优化至 (
2025-04-02 13:53:51
726
原创 3.2 博弈树与极小化极大算法(Minimax)
博弈树是描述博弈过程中所有可能状态的树形结构,包含以下要素:根节点(Root):初始游戏状态(如棋盘的初始布局)。内部节点(Internal Node):中间决策点,表示玩家需要选择动作的位置。边(Edge):玩家的动作(如移动棋子、落子)。叶子节点(Leaf):终局状态,标注每个玩家的收益值(Utility)。3. 博弈树的特性 完全性:覆盖所有可能的动作路径。对称性:若多个路径导致相同状态,可合并节点(但通常不合并以简化实现)。深度:树的层数等于最大动作步数(如井字棋最多9步)。对抗性
2025-04-02 13:52:06
926
原创 2.2 约束满足问题的求解(Solving Constraint Satisfaction Problems)
约束满足问题 (CSPs) 通常通过一种称为回溯搜索 (Backtracking Search)的算法来求解。回溯搜索是对深度优先搜索 (DFS)的优化,专门针对 CSP 的特性设计。它的核心思想是逐步为变量赋值,并在发现冲突时回溯到之前的选择进行调整。固定变量赋值顺序为变量选择一个固定的顺序,然后按此顺序逐一赋值。
2025-04-02 13:49:09
406
原创 2.1 约束满足问题 (Constraint Satisfaction Problems, CSPs)
约束满足问题是一种识别问题,与之前学习的搜索问题(规划问题)不同。在搜索问题中,我们关心如何找到从初始状态到目标状态的最优路径;而 CSP 的目标是判断某个状态是否满足一组给定的约束条件,而不关心到达该状态的路径。变量 (Variables):一组变量 ( X_1, X_2, ..., X_N ),每个变量可以取某个定义好的值。域 (Domain):每个变量可以取值的集合,例如 ( \{x_1, x_2, ..., x_d\} )。约束 (Constraints)
2025-04-02 13:48:32
612
原创 1.5 局部搜索 (Local Search)
局部搜索:关注目标状态而非路径,适用于优化和约束满足问题。爬山搜索:贪婪上升,简单但不完备。模拟退火:随机性+退火机制,理论上可达全局最优。局部束搜索:多线程优化,共享信息。遗传算法:进化式搜索,交叉产生新解。
2025-03-31 15:43:17
341
原创 1.4 有信息搜索 (Informed Search)
启发式函数 ( h(n) ):输入一个状态 ( n ),输出到目标状态的估计距离。作用:为搜索提供方向性,帮助智能体“偏好”可能更接近目标的状态。可接受启发式:满足以下条件:$$$$( h^*(n) ):从 ( n ) 到目标的真实最优成本。( h(n) \geq 0 ):非负。( h(n) \leq h^*(n) ):不高于真实成本(不过高估计)。启发式 ( h_a ) 支配 ( h_b )$$$$含义:( h_a ) 比 ( h_b ) 更接近真实成本 ( h^*(n) )。
2025-03-31 14:46:01
224
原创 1.3 无信息搜索(Uninformed Search)
树搜索框架:通过前沿扩展搜索树,找到从起始状态到目标状态的路径。无信息搜索:不依赖目标位置信息,仅靠策略选择扩展顺序。三种策略DFS:最深优先,栈实现,适合空间受限但不完备。BFS:最浅优先,队列实现,完备但非最优。UCS:成本最低优先,优先级队列实现,完备且最优(非负成本)。共同点:都基于树搜索框架,仅扩展策略不同。
2025-03-31 14:45:31
224
原创 1.2 状态空间与搜索问题 (State Spaces and Search Problems)
为了创建一个理性的规划智能体,我们需要用数学方式表达其环境及其目标。这通过定义一个搜索问题 (Search Problem)从智能体的当前状态(环境中配置),如何到达一个满足其目标的最佳新状态?状态空间 (State Space):环境中所有可能状态的集合。动作集 (Actions):每个状态下可执行的动作。转移模型 (Transition Model):在当前状态执行某动作后得到的新状态。动作成本 (Action Cost):从一个状态转移到另一个状态的代价。起始状态 (Start State)
2025-03-31 14:44:57
894
原创 1.1 智能体 (Agents)
在人工智能中,智能体 (Agent)是核心概念,指一个具有目标或偏好的实体,它会执行一系列动作以实现这些目标,追求最优或期望的最佳结果。智能体的“理性”体现在它能在给定环境中选择最符合其目标的行动。环境 (Environment):智能体存在和行动的场所,每个智能体都有一个特定的环境。例如,一个井字棋智能体的环境是虚拟棋盘。传感器 (Sensors):智能体通过传感器感知环境,获取状态信息。执行器 (Actuators):智能体通过执行器对环境采取行动,改变其状态。世界 (World)
2025-03-31 14:43:07
340
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人