对话系统中的强化学习:从理论到实践
1. 项目背景与终止
在过去,通信器系统(Communicator systems)整个生命周期处理的呼叫只有数千个,而如今每天有大量的全球用户。通信器系统也无法从现实世界系统的成果中受益,构建它们的公司在DARPA的科研项目中参与度极低,并且该行业按照自身的标准、架构和范式发展,常与研究界的有所不同。9·11事件后,DARPA认为语音对话研究的重要性远低于与国土安全直接相关的研究,于是在2001年底终止了通信器项目,且未续约。
2. 机器学习基础
2.1 机器学习的本质
机器学习的一项基本任务是学习如何为未命名的事物命名,即“分类未知模式”。以识别狗的品种为例,我们首先要提取狗的特征,如大小、身高、口鼻和耳朵的大小形状、毛发颜色和类型等,这就是计算机科学家所说的“特征提取”。然后,将这些特征与已知品种的特征进行匹配,从而确定狗的品种。如果特征不明确,我们可能会将其归为混种或表示不知道品种。机器学习就是将特征集与预定类别相关联,智能机器应能为呈现的特征集分配类别、名称或标签,理想情况下,应尽可能减少错误。
2.2 监督学习
监督学习是机器学习科学家常用的方法之一,例如模板匹配语音识别和隐马尔可夫模型。在监督学习中,我们向机器提供模式样本,每个样本都有正确的标签,这些样本组成“训练集”。由于我们为每个样本提供了正确的类别,所以这种学习被称为“监督学习”。基于训练集,机器应学会为不属于训练集但属于预定义类别的模式分配类别标签,这就是“泛化能力”。
2.3 强化学习
强化学习是另一种学习方式,类似于我们学习下棋、西洋双陆棋、跳棋或扑克等
超级会员免费看
订阅专栏 解锁全文
1389

被折叠的 条评论
为什么被折叠?



