强化学习
文章平均质量分 94
白云千载尽
研究方向:自动驾驶/智能控制 wx:cyun_weid5355 欢迎交流
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
决策大模型专题(一)
决策大模型作为新一代人工智能的底层技术,能够赋能智能体(AI agent)在数字世界做出有效决策,也能助力具身机器人在物理世界实现有效决策。它不仅推动了智能体在复杂环境中的自主决策能力,还为多领域应用提供了新的技术思路。原创 2024-04-23 10:34:28 · 7122 阅读 · 3 评论 -
强化学习&MPC——(三)
这一次来由浅入深认识一下价值函数以及动态规划解决优化问题首先我们要理解一下状态价值函数,这是bellman equation的第一次正式推导。原创 2024-04-22 09:16:26 · 1316 阅读 · 0 评论 -
强化学习&MPC——(二)
马尔科夫过程:通过状态转移概率的实现的过程,马尔科夫过程是一个****,S是有限状态集合,P是状态转移概率。马尔可夫过程是指一个满足马尔可夫性质的随机过程。一个马尔可夫过程由状态空间SSS和状态转移概率矩阵PPP组成。状态转移概率矩阵PPP表示了从一个状态转移到另一个状态的概率。马尔科夫奖励过程:马尔可夫奖励过程是在马尔可夫过程的基础上增加了奖励的概念。一个马尔可夫奖励过程由状态空间SSS、状态转移概率矩阵PPP和奖励函数RRR组成。奖励函数RRR。原创 2024-04-09 22:40:55 · 1436 阅读 · 0 评论 -
强化学习&MPC——(一)
强化学习是机器学习的一种,是一种介于监督学习和非监督学习的机器学习方法。学习二字就很形象的说明了这是一种利用数据(任何形式的)来实现一些已有问题的方法,学习方法,大致可以分为机器学习,监督学习,非监督学习和强化学习。机器学习:机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 监督学习:已知数据和其一一对应的标签,训练一个智能算法,将输入数据映射到标签的过程。 非监督学习:已知数据不知道任何标签,按照一定的偏好,训练一个智能算法,将所有的数据映射到多个不同标签的过程。原创 2024-04-08 13:25:24 · 3179 阅读 · 2 评论
分享