Lexwzp0-优快云博客

原创 4.5 Q-learning 算法

Q-learning 是一种基于时序差分（Temporal Difference, TD）的无模型强化学习算法，它的目标是学习一个动作价值函数 (QsaQ(s, a)Qsa)，表示在状态 (sss) 下执行动作 (aaa) 的预期累积奖励（考虑折扣因子）。与 Sarsa 不同，Q-learning 是一种**离线策略（off-policy）**算法，这意味着它使用的行为策略（探索策略）和目标策略（用于评估和优化的策略）可以不同。Q-learning 的核心思想是通过迭代更新 (Qs。

2025-04-02 16:06:47 504

原创 4.4 多步Sarsa算法

单步SarsaSarsaSarsaGtrtγQst1at1GtrtγQst1at1其中，(rtr_trt) 是当前步的奖励，(γ\gammaγ) 是折扣因子，(Qst1at1Qst1at1) 是下一个状态-动作对的价值估计。多步SarsaSarsaSarsa扩展了这一定义，考虑 (nnnGtrtγrt1⋯γnQstn。

2025-04-02 16:05:54 579

原创 4.3 SARSA算法

SarsaSarsaSarsa是一种简单而有效的强化学习算法，通过时序差分和εεε-贪婪策略实现了无需模型的策略学习。它在悬崖漫步等环境中表现良好，能够平衡探索与利用，最终收敛到较优策略。

2025-04-02 16:05:13 615

原创 4.2 时序差分算法

第2步：从s=1向右移动，到达终点s=15，奖励r=+10。第1步：从状态s=0向右移动，到达s=1，奖励r=-1。：随着训练逐步减小ε（如从1.0降到0.01）。表示当前估计与更准确估计之间的差异。初始时，所有状态值V(s)=0。值函数逐步向高奖励方向传播。时序差分算法是强化学习中。

2025-04-02 15:08:15 824

原创 4.1 无模型强化学习

架起了从理论到实践的桥梁。后续章节将深入解析TD算法的变体、深度强化学习的实现细节，以及如何应对实际应用中的挑战（如稀疏奖励、高维输入）。，摆脱了对精确环境模型的依赖，成为解决现实复杂问题的核心工具。时序差分算法作为其理论基石，以。特点：遵循当前策略选择动作，强调“在策略（On-Policy）”学习。特点：学习最优策略，允许使用历史数据（Off-Policy）。

2025-04-02 15:02:28 766

原创 2.3 AC-3算法

在讲解AC-3之前，我们先简单了解一下CSP。

2025-04-02 14:02:27 696

原创 2.2 约束满足问题的求解

约束满足问题 (CSPs) 通常通过一种称为回溯搜索 (Backtracking Search)的算法来求解。回溯搜索是对深度优先搜索 (DFS)的优化，专门针对 CSP 的特性设计。它的核心思想是逐步为变量赋值，并在发现冲突时回溯到之前的选择进行调整。固定变量赋值顺序为变量选择一个固定的顺序，然后按此顺序逐一赋值。由于 CSP 中变量赋值的顺序不影响最终结果（赋值是可交换的，例如 (WARedNTGreenWARedNTGreen) 和 (NTGr。

2025-04-02 14:01:42 815

原创 3.6 蒙特卡洛树搜索（MCTS）

通过 MCTS，可以在不依赖显式剪枝的情况下，高效处理大规模搜索问题，尤其适合复杂和非确定性环境中的决策优化。：从根节点出发，根据当前策略选择子节点，直到到达一个未完全展开的节点。

2025-04-02 13:58:05 642

原创 3.5 Expectimax算法

Expectimax。

2025-04-02 13:57:26 857

原创 3.4 Alpha-Beta 更新逻辑

Alpha-Beta 剪枝通过维护两个边界值。，因此不断更新 α 为已知的最高收益值。，因此不断更新 β 为已知的最低损失值。Max层 α=3 β=5。Min层 α=3 β=5。Min层 α=3 β=5。Min层 α=2 β=6。Max层 α=2 β=6。Max层 α=2 β=6。

2025-04-02 13:56:37 888

原创 3.3 Alpha-Beta剪枝

通过 Alpha-Beta 剪枝，可以显著提升 Minimax 算法的效率，使其在复杂游戏中具备实际应用价值。Minimax 算法的时间复杂度为 (：快速估算非终局状态的价值。，将时间复杂度优化至 (

2025-04-02 13:53:51 726

原创 3.2 博弈树与极小化极大算法（Minimax）

博弈树是描述博弈过程中所有可能状态的树形结构，包含以下要素：根节点（Root）：初始游戏状态（如棋盘的初始布局）。内部节点（Internal Node）：中间决策点，表示玩家需要选择动作的位置。边（Edge）：玩家的动作（如移动棋子、落子）。叶子节点（Leaf）：终局状态，标注每个玩家的收益值（Utility）。3. 博弈树的特性完全性：覆盖所有可能的动作路径。对称性：若多个路径导致相同状态，可合并节点（但通常不合并以简化实现）。深度：树的层数等于最大动作步数（如井字棋最多9步）。对抗性

2025-04-02 13:52:06 926

原创 3.1 博弈问题（Games）

表示所有可能博弈路径的树形结构。

2025-04-02 13:51:34 709

原创 AC-3算法

在讲解AC-3之前，我们先简单了解一下CSP。

2025-04-02 13:51:01 842

原创 2.2 约束满足问题的求解(Solving Constraint Satisfaction Problems)

约束满足问题 (CSPs) 通常通过一种称为回溯搜索 (Backtracking Search)的算法来求解。回溯搜索是对深度优先搜索 (DFS)的优化，专门针对 CSP 的特性设计。它的核心思想是逐步为变量赋值，并在发现冲突时回溯到之前的选择进行调整。固定变量赋值顺序为变量选择一个固定的顺序，然后按此顺序逐一赋值。

2025-04-02 13:49:09 406

原创 2.1 约束满足问题 (Constraint Satisfaction Problems, CSPs)

约束满足问题是一种识别问题，与之前学习的搜索问题（规划问题）不同。在搜索问题中，我们关心如何找到从初始状态到目标状态的最优路径；而 CSP 的目标是判断某个状态是否满足一组给定的约束条件，而不关心到达该状态的路径。变量 (Variables)：一组变量 ( X_1, X_2, ..., X_N )，每个变量可以取某个定义好的值。域 (Domain)：每个变量可以取值的集合，例如 ( \{x_1, x_2, ..., x_d\} )。约束 (Constraints)

2025-04-02 13:48:32 612

原创 1.5 局部搜索 (Local Search)

局部搜索：关注目标状态而非路径，适用于优化和约束满足问题。爬山搜索：贪婪上升，简单但不完备。模拟退火：随机性+退火机制，理论上可达全局最优。局部束搜索：多线程优化，共享信息。遗传算法：进化式搜索，交叉产生新解。

2025-03-31 15:43:17 341

原创 1.4 有信息搜索 (Informed Search)

启发式函数 ( h(n) )：输入一个状态 ( n )，输出到目标状态的估计距离。作用：为搜索提供方向性，帮助智能体“偏好”可能更接近目标的状态。可接受启发式：满足以下条件：$$$$( h^*(n) )：从 ( n ) 到目标的真实最优成本。( h(n) \geq 0 )：非负。( h(n) \leq h^*(n) )：不高于真实成本（不过高估计）。启发式 ( h_a ) 支配 ( h_b )$$$$含义：( h_a ) 比 ( h_b ) 更接近真实成本 ( h^*(n) )。

2025-03-31 14:46:01 224

原创 1.3 无信息搜索（Uninformed Search）

树搜索框架：通过前沿扩展搜索树，找到从起始状态到目标状态的路径。无信息搜索：不依赖目标位置信息，仅靠策略选择扩展顺序。三种策略DFS：最深优先，栈实现，适合空间受限但不完备。BFS：最浅优先，队列实现，完备但非最优。UCS：成本最低优先，优先级队列实现，完备且最优（非负成本）。共同点：都基于树搜索框架，仅扩展策略不同。

2025-03-31 14:45:31 224

原创 1.2 状态空间与搜索问题 (State Spaces and Search Problems)

为了创建一个理性的规划智能体，我们需要用数学方式表达其环境及其目标。这通过定义一个搜索问题 (Search Problem)从智能体的当前状态（环境中配置），如何到达一个满足其目标的最佳新状态？状态空间 (State Space)：环境中所有可能状态的集合。动作集 (Actions)：每个状态下可执行的动作。转移模型 (Transition Model)：在当前状态执行某动作后得到的新状态。动作成本 (Action Cost)：从一个状态转移到另一个状态的代价。起始状态 (Start State)

2025-03-31 14:44:57 894

原创 1.1 智能体（Agents）

在人工智能中，智能体 (Agent)是核心概念，指一个具有目标或偏好的实体，它会执行一系列动作以实现这些目标，追求最优或期望的最佳结果。智能体的“理性”体现在它能在给定环境中选择最符合其目标的行动。环境 (Environment)：智能体存在和行动的场所，每个智能体都有一个特定的环境。例如，一个井字棋智能体的环境是虚拟棋盘。传感器 (Sensors)：智能体通过传感器感知环境，获取状态信息。执行器 (Actuators)：智能体通过执行器对环境采取行动，改变其状态。世界 (World)

2025-03-31 14:43:07 340

2301_80681057的博客