4、机器学习中的约束学习与决策机制

机器学习中的约束学习与决策机制

1. 强化学习的引入

人类的学习技能高度依赖时间维度,并假定存在相关的序列结构。人类会在环境中采取行动,以最大化某种累积奖励的概念。这种思想在机器学习中得到了应用,被称为强化学习。在强化学习中,智能体被赋予一个特定的目标,例如与客户进行机票交互或找到迷宫的出口,并接收一些可用于驱动其行动的信息。学习通常被表述为马尔可夫决策过程(MDP),算法通常利用动态规划技术。与其他学习方式不同,强化学习既不呈现输入/输出对,也不明确纠正次优行动。

2. 基于约束的学习

基于约束的学习强调智能体需要满足环境施加的约束。这一概念可以分为以下几种类型:
- 点约束 :监督学习可以被视为一种施加特殊点约束的方式。在监督学习中,给定训练集 $L = {(x_1, y_1), \ldots, (x_{\ell}, y_{\ell})}$,理想情况下,我们希望找到一个函数 $f$,使得 $\forall \kappa = 1, \ldots, \ell$ 都有 $f(x_{\kappa}) = y_{\kappa}$。然而,在实际的分类和回归任务中,严格满足点约束并不现实,因为学习方案需要容忍训练集中的误差。因此,软约束的满足比硬约束更合适。误差函数 (1.1.3) 是一种表达软约束的方式,它基于最小化适当的惩罚函数。例如,在回归任务中,我们可以选择二次损失函数:
$$E(w) = \sum_{\kappa = 1}^{\ell} (y_{\kappa} - f(w, x_{\kappa}))^2$$
这个点约束项强调了这种约束的本质。机器学习中的一个核心问题是设计方法,以确保在样本 $X^{#}$ 上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值