机器学习与数据挖掘算法设计
在机器学习和数据挖掘领域,算法设计是核心内容,涉及多种不同的方法和技术,下面将详细介绍其中的一些关键算法和模型。
1. 自动机泛化与粗糙集
1.1 自动机泛化
对于有限状态自动机,如果以正确的方式合并其中两个状态,会得到一个新的自动机,这个新自动机至少能接受原自动机所接受的所有序列,因此具有更强的泛化性。语法推理的大多数方法从一个特定的自动机开始,该自动机精确接受正序列,然后通过一系列合并操作对其进行泛化,直到覆盖负序列或满足当前自动机的停止准则。
1.2 粗糙集
当数据来自不准确或近似的测量时,改变数据的表示方式以考虑较低的精度可能是有利的,这有助于获得更易理解的概念描述。粗糙集形式主义为此提供了一种工具,它可用于近似推理,特别是在选择信息属性和寻找分类或决策规则方面。粗糙集形式主义可以根据描述符在可用示例上诱导的等价关系,对示例空间进行重新描述,进而用上下近似来描述概念,这也引出了概念覆盖和泛化关系的新定义。
2. 四个示例算法
2.1 版本空间与候选消除算法
- 版本空间 :给定一组正例和反例,版本空间定义为与已知数据一致的所有假设的集合,即覆盖所有正例且不覆盖任何反例,此时经验风险为零。在一定条件下,与学习数据一致的假设集在泛化格中由两个集合界定:S - 集是覆盖正例并拒绝反例的最具体假设的集合,G - 集是与学习数据一致的最大泛化假设的集合。
- 候选消除算法 :这是一种增量算法,它按顺序考虑学习示例,每次呈现新示例时,相应
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



