机器学习与 scikit-learn 实战
1. 机器学习基础
机器学习是研究数据分析中模式识别方法的学科,旨在开发从数据中学习并进行预测的算法,每种方法都基于构建特定模型。学习问题可分为监督学习和无监督学习两大类:
- 监督学习 :训练集包含要预测的目标属性,可指导模型对新数据给出类似预测。
- 分类 :训练集数据属于两个或更多类别,能让系统学习区分各类别的特征,对新数据进行类别判断。
- 回归 :要预测的值是连续变量,例如通过散点图中的一系列点找到描述趋势的直线。
- 无监督学习 :训练集仅包含输入值,无对应目标值。
- 聚类 :发现数据集中相似样本的组。
- 降维 :将高维数据集降为二维或三维,不仅利于数据可视化,还能将高维数据转换为低维数据,使每个低维维度传达更多信息。
此外,还有用于验证和评估模型的方法。在机器学习中,通常将数据分为训练集和测试集,训练集用于学习数据属性,测试集用于测试这些属性。
2. scikit-learn 中的监督学习
scikit-learn 中的监督学习示例包括:
- 分类 :使用鸢尾花数据集。
- K 近邻分类器
- 支持向量机(SVC)
- 回归
超级会员免费看
订阅专栏 解锁全文
508

被折叠的 条评论
为什么被折叠?



