自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 4.5 Q-learning 算法

Q-learning 是一种基于时序差分(Temporal Difference, TD)的无模型强化学习算法,它的目标是学习一个动作价值函数 (QsaQ(s, a)Qsa),表示在状态 (sss) 下执行动作 (aaa) 的预期累积奖励(考虑折扣因子)。与 Sarsa 不同,Q-learning 是一种**离线策略(off-policy)**算法,这意味着它使用的行为策略(探索策略)和目标策略(用于评估和优化的策略)可以不同。Q-learning 的核心思想是通过迭代更新 (Qs。

2025-04-02 16:06:47 504

原创 4.4 多步Sarsa算法

单步SarsaSarsaSarsaGtrtγQst1at1Gt​rt​γQst1​at1​其中,(rtr_trt​) 是当前步的奖励,(γ\gammaγ) 是折扣因子,(Qst1at1Qst1​at1​) 是下一个状态-动作对的价值估计。多步SarsaSarsaSarsa扩展了这一定义,考虑 (nnnGtrtγrt1⋯γnQstn。

2025-04-02 16:05:54 579

原创 4.3 SARSA算法

SarsaSarsaSarsa是一种简单而有效的强化学习算法,通过时序差分和εεε-贪婪策略实现了无需模型的策略学习。它在悬崖漫步等环境中表现良好,能够平衡探索与利用,最终收敛到较优策略。

2025-04-02 16:05:13 615

原创 4.2 时序差分算法

第2步:从s=1向右移动,到达终点s=15,奖励r=+10。第1步:从状态s=0向右移动,到达s=1,奖励r=-1。:随着训练逐步减小ε(如从1.0降到0.01)。表示当前估计与更准确估计之间的差异。初始时,所有状态值V(s)=0。值函数逐步向高奖励方向传播。时序差分算法是强化学习中。

2025-04-02 15:08:15 824

原创 4.1 无模型强化学习

架起了从理论到实践的桥梁。后续章节将深入解析TD算法的变体、深度强化学习的实现细节,以及如何应对实际应用中的挑战(如稀疏奖励、高维输入)。,摆脱了对精确环境模型的依赖,成为解决现实复杂问题的核心工具。时序差分算法作为其理论基石,以。特点:遵循当前策略选择动作,强调“在策略(On-Policy)”学习。特点:学习最优策略,允许使用历史数据(Off-Policy)。

2025-04-02 15:02:28 766

原创 2.3 AC-3算法

在讲解AC-3之前,我们先简单了解一下CSP。

2025-04-02 14:02:27 696

原创 2.2 约束满足问题的求解

约束满足问题 (CSPs) 通常通过一种称为回溯搜索 (Backtracking Search)的算法来求解。回溯搜索是对深度优先搜索 (DFS)的优化,专门针对 CSP 的特性设计。它的核心思想是逐步为变量赋值,并在发现冲突时回溯到之前的选择进行调整。固定变量赋值顺序为变量选择一个固定的顺序,然后按此顺序逐一赋值。由于 CSP 中变量赋值的顺序不影响最终结果(赋值是可交换的,例如 (WARedNTGreenWARedNTGreen) 和 (NTGr。

2025-04-02 14:01:42 815

原创 3.6 蒙特卡洛树搜索(MCTS)

通过 MCTS,可以在不依赖显式剪枝的情况下,高效处理大规模搜索问题,尤其适合复杂和非确定性环境中的决策优化。:从根节点出发,根据当前策略选择子节点,直到到达一个未完全展开的节点。

2025-04-02 13:58:05 642

原创 3.5 Expectimax算法

Expectimax。

2025-04-02 13:57:26 857

原创 3.4 Alpha-Beta 更新逻辑

Alpha-Beta 剪枝通过维护两个边界值。,因此不断更新 α 为已知的最高收益值。,因此不断更新 β 为已知的最低损失值。Max层 α=3 β=5。Min层 α=3 β=5。Min层 α=3 β=5。Min层 α=2 β=6。Max层 α=2 β=6。Max层 α=2 β=6。

2025-04-02 13:56:37 888

原创 3.3 Alpha-Beta剪枝

通过 Alpha-Beta 剪枝,可以显著提升 Minimax 算法的效率,使其在复杂游戏中具备实际应用价值。Minimax 算法的时间复杂度为 (:快速估算非终局状态的价值。,将时间复杂度优化至 (

2025-04-02 13:53:51 726

原创 3.2 博弈树与极小化极大算法(Minimax)

博弈树是描述博弈过程中所有可能状态的树形结构,包含以下要素:根节点(Root):初始游戏状态(如棋盘的初始布局)。内部节点(Internal Node):中间决策点,表示玩家需要选择动作的位置。边(Edge):玩家的动作(如移动棋子、落子)。叶子节点(Leaf):终局状态,标注每个玩家的收益值(Utility)。3. 博弈树的特性 完全性:覆盖所有可能的动作路径。对称性:若多个路径导致相同状态,可合并节点(但通常不合并以简化实现)。深度:树的层数等于最大动作步数(如井字棋最多9步)。对抗性

2025-04-02 13:52:06 926

原创 3.1 博弈问题(Games)

表示所有可能博弈路径的树形结构。

2025-04-02 13:51:34 709

原创 AC-3算法

在讲解AC-3之前,我们先简单了解一下CSP。

2025-04-02 13:51:01 842

原创 2.2 约束满足问题的求解(Solving Constraint Satisfaction Problems)

约束满足问题 (CSPs) 通常通过一种称为回溯搜索 (Backtracking Search)的算法来求解。回溯搜索是对深度优先搜索 (DFS)的优化,专门针对 CSP 的特性设计。它的核心思想是逐步为变量赋值,并在发现冲突时回溯到之前的选择进行调整。固定变量赋值顺序为变量选择一个固定的顺序,然后按此顺序逐一赋值。

2025-04-02 13:49:09 406

原创 2.1 约束满足问题 (Constraint Satisfaction Problems, CSPs)

约束满足问题是一种识别问题,与之前学习的搜索问题(规划问题)不同。在搜索问题中,我们关心如何找到从初始状态到目标状态的最优路径;而 CSP 的目标是判断某个状态是否满足一组给定的约束条件,而不关心到达该状态的路径。变量 (Variables):一组变量 ( X_1, X_2, ..., X_N ),每个变量可以取某个定义好的值。域 (Domain):每个变量可以取值的集合,例如 ( \{x_1, x_2, ..., x_d\} )。约束 (Constraints)

2025-04-02 13:48:32 612

原创 1.5 局部搜索 (Local Search)

局部搜索:关注目标状态而非路径,适用于优化和约束满足问题。爬山搜索:贪婪上升,简单但不完备。模拟退火:随机性+退火机制,理论上可达全局最优。局部束搜索:多线程优化,共享信息。遗传算法:进化式搜索,交叉产生新解。

2025-03-31 15:43:17 341

原创 1.4 有信息搜索 (Informed Search)

启发式函数 ( h(n) ):输入一个状态 ( n ),输出到目标状态的估计距离。作用:为搜索提供方向性,帮助智能体“偏好”可能更接近目标的状态。可接受启发式:满足以下条件:$$$$( h^*(n) ):从 ( n ) 到目标的真实最优成本。( h(n) \geq 0 ):非负。( h(n) \leq h^*(n) ):不高于真实成本(不过高估计)。启发式 ( h_a ) 支配 ( h_b​ )$$$$含义:( h_a ) 比 ( h_b ) 更接近真实成本 ( h^*(n) )。

2025-03-31 14:46:01 224

原创 1.3 无信息搜索(Uninformed Search)

树搜索框架:通过前沿扩展搜索树,找到从起始状态到目标状态的路径。无信息搜索:不依赖目标位置信息,仅靠策略选择扩展顺序。三种策略DFS:最深优先,栈实现,适合空间受限但不完备。BFS:最浅优先,队列实现,完备但非最优。UCS:成本最低优先,优先级队列实现,完备且最优(非负成本)。共同点:都基于树搜索框架,仅扩展策略不同。

2025-03-31 14:45:31 224

原创 1.2 状态空间与搜索问题 (State Spaces and Search Problems)

为了创建一个理性的规划智能体,我们需要用数学方式表达其环境及其目标。这通过定义一个搜索问题 (Search Problem)从智能体的当前状态(环境中配置),如何到达一个满足其目标的最佳新状态?状态空间 (State Space):环境中所有可能状态的集合。动作集 (Actions):每个状态下可执行的动作。转移模型 (Transition Model):在当前状态执行某动作后得到的新状态。动作成本 (Action Cost):从一个状态转移到另一个状态的代价。起始状态 (Start State)

2025-03-31 14:44:57 894

原创 1.1 智能体 (Agents)

在人工智能中,智能体 (Agent)是核心概念,指一个具有目标或偏好的实体,它会执行一系列动作以实现这些目标,追求最优或期望的最佳结果。智能体的“理性”体现在它能在给定环境中选择最符合其目标的行动。环境 (Environment):智能体存在和行动的场所,每个智能体都有一个特定的环境。例如,一个井字棋智能体的环境是虚拟棋盘。传感器 (Sensors):智能体通过传感器感知环境,获取状态信息。执行器 (Actuators):智能体通过执行器对环境采取行动,改变其状态。世界 (World)

2025-03-31 14:43:07 340

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除