14、人工智能中的强化学习与博弈应用

人工智能中的强化学习与博弈应用

1. 基础概念与相关知识

在人工智能的学习、性能与预测领域,涉及到大量的数据、大语言模型(LLMs)以及GPT等众多参数。在深入了解人工智能的一些复杂概念之前,有几个基础概念值得我们了解。
- 微分方程 :它将函数与其导数(相对于自变量的变化率)联系起来,通过求解微分方程,在给定初始条件和边界条件下可以预测结果。大多数情况下,我们遇到的是二阶微分方程,因为根据牛顿第二定律,位置的二阶导数(加速度)与力成正比,而力驱动着许多我们感兴趣的宏观物理系统,例如第9章提到的非线性弹道抛射体微分方程。
- 条件概率 :用垂直竖线“|”表示,例如$P(A|B)$,表示事件A发生的概率依赖于事件B的发生,也就是“在B发生的条件下,事件A发生的概率”。
- Markov链 :若想深入了解其数学描述,可以参考M. Richey 2011年发表的《The Evolution of Markov Chain Monte Carlo Methods》。
- 赌场盈利原理 :赌场65 - 80%的利润来自老虎机。由于随机符号组合获得奖励(更别说头奖)的概率很低,根据大数定律,玩家需要玩大量次数才能达到平均收益。而且,即使有些玩家能赢一些,但往往等不到获得头奖就会因为玩的次数不够多而最终输钱。在纸牌游戏中,下大注的玩家也不会玩足够长的时间来回归到遥远的平均收益。轮盘赌中的零和双零让赌场有5.26%的优势。

2. 强化学习的基本原理

强化学习在我们的日常生活中无处不在。它需要一个情境,即

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值