31、使用时态逻辑集成目标与定性偏好

使用时态逻辑集成目标与定性偏好

1. 智能体编程中的理性行动选择

在智能体编程领域,理性行动选择架构受到了带偏好规划研究的启发。经典的人工智能规划问题是在给定一组动作规范的情况下,寻找一个从当前状态到达目标状态的计划(即一系列动作)。而在智能体编程中,智能体的行为是通过程序来指定的。

规划和编程方法的主要区别之一在于,规划是寻找一个完整的计划,执行该计划将使智能体实现其目标(在对环境的某些假设下)。而智能体程序则是逐步执行的,通常不会事先检查执行的动作是否最终会使智能体达到其目标。

1.1 行动选择方法

我们提出的行动选择方法部分基于之前将维护目标融入智能体编程语言的工作。具体思路是,智能体有一个固定的、通常是有限的前瞻视野,即智能体可以向前查看一定数量的执行步骤。然后,智能体使用其约束条件评估它可以采取的可能行动路线或路径,以确定哪些路径是最佳的。接着,智能体沿着其中一条路径迈出一步,然后重复这个过程。

需要注意的是,当智能体朝特定方向迈出一步时,它并不完全了解遵循该路径的结果。它只能向前看到其前瞻视野,但不知道该视野之外会发生什么。这意味着智能体可能会采取次优的步骤,即智能体将其约束条件用作行动选择的启发式方法。在一些规划方法中,约束条件也被用作启发式方法,用于指导寻找最优计划。

1.2 目标和偏好的表示工具

我们使用线性时态逻辑(LTL)来表示目标和偏好。如果智能体将一个时态公式作为目标,它应该尝试生成该时态公式成立的执行轨迹,偏好的表示也是如此。虽然LTL公式通常在无限轨迹上进行评估,但由于我们使用的是有限的前瞻视野,因此需要在有限轨迹上评估LTL公式。结果表明,文献[3]中提出的LT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值