时态逻辑的应用与展望
1. 强化学习与马尔可夫特性
在强化学习(RL)中,动作模型 $P(z_{t + 1}|z_t, a_t)$ 表示当智能体选择动作 $a_t$ 时,世界从状态 $z_t$ 转变为状态 $z_{t + 1}$ 的条件概率分布,$r_{t + 1}$ 是下一步的预期回报。由于计算和存储能力有限且成本高昂,实际的 RL 应用通常需要具备马尔可夫特性。即使对当前状态的了解不足,近似的马尔可夫性质也是有利的。对于非常大(“无限”)的状态空间,智能体的效用函数必须进行近似,例如使用状态 - 动作 - 回报 - 状态算法(SARSA)、时间差分学习、蒙特卡罗方法和动态规划等。
2. 混合人工智能
随着计算能力的提升和通信速度的加快,需要改进能源消耗、使用更好的电池、实现设备小型化以及优化显示和传感器技术。在这些条件下,智能功能可以分布在一个包含许多多媒体终端的复杂网络中。结合卫星技术和全球定位系统(GPS),电子连接的社会正转变为网络物理系统,这是一种人与社会、机器通过数字和模拟接口共生的形式,从而产生了“混合人工智能”。
知识系统(符号人工智能)与机器学习(亚符号人工智能)相结合。通信不仅在人类伙伴之间使用自然语言进行,还通过数字代码与现实世界中的事物进行。网络物理系统也意味着向物联网(IoT)的转变,互联网上的事物成为复杂动态系统(即通信网络)的本地活跃智能体。
例如,结合人工智能功能、基于知识的编程和情境学习的机器人就是本地活跃智能体的例子。只有这样,机器人才能不仅熟练地相互协调行动,还能像更复杂的生物系统一样进行规划和决策。同时,人们还设计了神经形态计算机结构,它将自然神经元系统的优势与技术计算机结构的优势相结合。此外,
超级会员免费看
订阅专栏 解锁全文
41

被折叠的 条评论
为什么被折叠?



