机器学习入门与R语言实践
1. 机器学习基础概念
机器学习是统计学、数据库科学和计算机科学交叉领域诞生的强大工具,能从大量数据中挖掘出有价值的信息。不过在实际应用中,要注意避免常见的滥用情况。
从概念上讲,学习就是将数据抽象成结构化表示,并将这种结构泛化到可评估效用的行动中。在实际操作里,机器学习利用包含待学习概念的示例和特征的数据,将其总结为模型,用于预测或描述性目的。这些目的可分为分类、数值预测、模式检测和聚类等任务。
2. 机器学习算法类型
不同的学习任务需要匹配不同的机器学习算法,以下是常见算法及其对应的学习任务:
| 模型 | 学习任务 |
| — | — |
| 监督学习算法:最近邻、朴素贝叶斯、决策树、分类规则学习器 | 分类 |
| 监督学习算法:线性回归、回归树、模型树 | 数值预测 |
| 监督学习算法:神经网络、支持向量机 | 双重用途 |
| 无监督学习算法:关联规则 | 模式检测 |
| 无监督学习算法:k - 均值聚类 | 聚类 |
| 元学习算法:装袋、提升、随机森林 | 双重用途 |
在实际项目中,需要先确定项目所属的学习任务,再据此选择合适的算法。例如,进行模式检测时,可能会使用关联规则;聚类问题通常会用到k - 均值算法;数值预测则会采用回归分析或回归树。
对于分类任务,需要更谨慎地选择合适的分类器。不同算法有不同的特点,比如决策树生成的模型易于理解,而神经网络的模型则难以解释。在设计信用评分模型时,这种差异就很重要,因为法律通常要求向贷款申请人说明拒绝贷款的原因。即使神经网络在预测贷款违约方面表现更好
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



