监督学习与神经网络入门
1. 基于规则的分类
基于规则的分类过程是为每个属性值搜索匹配规则。若找到匹配规则,就返回对应的标签;若遍历所有属性值都未找到匹配规则,则返回“未分类”信息。在实际应用中,因缺乏匹配规则而无法对数据项进行分类的情况很常见。
使用符号规则对数据项进行分类存在一些问题:
- 领域知识要求 :手动定义符号规则需要具备应用领域的相关知识。
- 规则扩充需求 :为提高分类能力,需不断添加更多的符号规则。
- 规则冲突问题 :随着符号规则的不断增加,规则之间出现矛盾的概率也会增大。
这些手动定义规则时出现的问题,促使人们用机器学习算法取代这种方法。基于规则的分类方法中,用于分类数据项的符号规则由条件部分(包含属性值)和因果部分(给定的类别)组成。分类算法在对数据项进行分类的过程中,会搜索其条件部分与属性值匹配的符号规则。该方法灵活性较差,这也是用机器学习算法取代它的一个重要原因。在决策树中,符号规则是从训练示例中隐式提取的。
2. 朴素检索
朴素检索是一种原始的分类方案,它作为基于实例学习的初始形式,依赖于单个训练示例。其基本思想是通过检索与每个数据项完全匹配的训练示例来对数据项进行分类。虽然这种方法不太实用,但它是理解基于实例的学习算法(如KNN算法)的起点。
训练集可看作一个表格,由作为数值向量的训练示例组成,假设给定的任务是分类任务。训练集用输入向量及其目标类别的有序对集合表示:$Tr = {(x_1, c_1), (x_2, c_2), \ldots, (
超级会员免费看
订阅专栏 解锁全文
1884

被折叠的 条评论
为什么被折叠?



