12、机器学习:轮盘算法与自主机器人学习行为

机器学习:轮盘算法与自主机器人学习行为

轮盘算法基础

轮盘算法是一种在机器学习中常用的算法,它基于事件的概率分布来选择相应的事件。下面我们通过一个简化的轮盘模型来理解其基本原理。

假设有一个简化的轮盘,它被等分为四个扇形区域,分别标记为A、B、C、D,如图所示。每次转动轮盘时,每个扇形区域被选中的平均概率为0.25。计算某个事件(如A区域)的概率公式为:
[ p_A = \frac{Area_A}{Area_A + Area_B + Area_C + Area_D} ]
然而,使用这个公式时存在一个问题:即使只需要计算(p_A),也必须先计算出代表其他事件(B、C、D)的面积,才能得出事件A的有效概率。从计算的角度来看,更有利的做法是专注于(p_A),而不必关心其他事件的概率。在人工智能术语中,A、B、C、D被称为适应度(fitness)。初始假设是所有适应度范围相等,因为没有明显的证据表明需要改变这个简单的选择。

为了更直观地讨论适应度,我们可以使用水平条形图。假设每个适应度变量被赋予25个任意值,同时在条形图上显示三次随机抽取的结果,抽取的百分比值范围为0到100。以下是初始适应度选择的表格:
| 抽取编号 | 抽取百分比 | 数值 | 选中的适应度 |
| ---- | ---- | ---- | ---- |
| 1 | 9 | 9 | A |
| 2 | 60 | 60 | C |
| 3 | 93 | 93 | D |

但实际上,四个适应度范围可能并不相等。当适应度范围发生变化时,抽取结果对应的适应度选择也会改变,如下表所示:
| 抽取编号 | 抽取百分比 | 数值 |

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值