机器学习——第五章:树模型

本文探讨了树模型在机器学习中的应用,强调其表示能力、递归分治的本质和防止过拟合的重要性。内容涵盖了决策树的构建原理,如特征树、排序树和概率估计树的转换,以及剪枝策略、杂度度量和学习算法的选择。讨论了如何通过选择合适的杂度测度和避免过采样来优化决策树的排序性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文为阅读总结个人认为书里概念性的、对本人有帮助的内容,仅供参考。

树模型是机器学习中最为常见的模型之一。树模型具有较强的表示能力,易于理解,且因其递归的“分治”本质而尤其受到计算机科学研究人员的关注。

任何一条穿越假设空间的路径都可被转化为一棵等价的决策树。

对于取值超过两个状态的特征,决策树并不会运用内部析取来处理,而是允许各分支指向不同的取值。

决策树具有比合取概念(严格)更强的表示能力。实际上,由于决策树对应于析取范式,且每个逻辑表达式可等价地表示为析取范式,因此决策树具有更强的表示能力。

有意选择一种具有一定局限性的假设语言是一种避免过拟合且有利于学习的方式。

如果我们采用的假设语言足以表示任意正例构成的集合,则必须确保学习算法运用了某种可强制推广到现有实例之外以避免过拟合的机制——这被称为学习算法的归纳偏置。

大多数在表示能力较强的假设空间中工作的学习算法都具有一个有利于减小假设复杂性的归纳偏置——或是隐式调整假设空间的搜索方式,或是显式地在目标函数中引入复杂性罚项。

特征树是这样一种树:每个内部结点(即不为叶结点的结点)用一个特征来标记,且从内部结点出发的每条边都被标记为一个文字。一个结点中所有文字构成的集合称为一个分裂。该树的每个叶结点表示一个由从根节点到叶结点所遇到的所有文字所形成的合取的逻辑表达式。该合取的外延(它所覆盖的实例集)被称为与该叶结点关联的实例空间区隔。

本质上,特征树是一种表示假设空间中大量合取概念的简洁方式。

规则学习器本质上每次只学习一个概念,而树学习器则按照自顶向下的方式一次性搜索所有的概念。

贪婪算法:在需要做选择的时候,算法是基于当前可用信息做出选择的,而在做出选择之后,这一选择将不会被重新考虑。这类算法无法保证得到原问题的最优解。

回溯算法能够保证返回最优解,但会以增加计算时间和内存开销为代价。


对于分类任务,当某个实例集D中的所有实例均来自同一类别时,我们称D为同质的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值