本文为阅读总结个人认为书里概念性的、对本人有帮助的内容,仅供参考。
树模型是机器学习中最为常见的模型之一。树模型具有较强的表示能力,易于理解,且因其递归的“分治”本质而尤其受到计算机科学研究人员的关注。
任何一条穿越假设空间的路径都可被转化为一棵等价的决策树。
对于取值超过两个状态的特征,决策树并不会运用内部析取来处理,而是允许各分支指向不同的取值。
决策树具有比合取概念(严格)更强的表示能力。实际上,由于决策树对应于析取范式,且每个逻辑表达式可等价地表示为析取范式,因此决策树具有更强的表示能力。
有意选择一种具有一定局限性的假设语言是一种避免过拟合且有利于学习的方式。
如果我们采用的假设语言足以表示任意正例构成的集合,则必须确保学习算法运用了某种可强制推广到现有实例之外以避免过拟合的机制——这被称为学习算法的归纳偏置。
大多数在表示能力较强的假设空间中工作的学习算法都具有一个有利于减小假设复杂性的归纳偏置——或是隐式调整假设空间的搜索方式,或是显式地在目标函数中引入复杂性罚项。
特征树是这样一种树:每个内部结点(即不为叶结点的结点)用一个特征来标记,且从内部结点出发的每条边都被标记为一个文字。一个结点中所有文字构成的集合称为一个分裂。该树的每个叶结点表示一个由从根节点到叶结点所遇到的所有文字所形成的合取的逻辑表达式。该合取的外延(它所覆盖的实例集)被称为与该叶结点关联的实例空间区隔。
本质上,特征树是一种表示假设空间中大量合取概念的简洁方式。
规则学习器本质上每次只学习一个概念,而树学习器则按照自顶向下的方式一次性搜索所有的概念。
贪婪算法:在需要做选择的时候,算法是基于当前可用信息做出选择的,而在做出选择之后,这一选择将不会被重新考虑。这类算法无法保证得到原问题的最优解。
回溯算法能够保证返回最优解,但会以增加计算时间和内存开销为代价。
对于分类任务,当某个实例集D中的所有实例均来自同一类别时,我们称D为同质的。