大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为优快云博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。
本文主要介绍了机器学习前面的知识,希望能对学习机器学习的同学们有所帮助。
1. 基础知识
- 1.机器学习的两大类任务:回归和分类(还有其他,本文仅讨论回归和分类)
- 2.过拟合:在训练集表现很好,但在测试集表现比较差;欠拟合:对于训练好的模型,若在训练集表现差,在测试集表现同样会很差,这可能是欠拟合导致。对于过拟合和欠拟合问题有如下判断解决方法:
- 对于任意一个模型理论上都可以画出如下的模型复杂度曲线,横轴为复杂度(回归问题为几次方,knn为k等),纵轴为准确率(回归可以为R^2,MSE等,分类如分类准确率、查准率等)
机器学习的目的就是找到泛化能力最好的地方。# 模型复杂度曲线(超参数-准确度曲线)-以决策树为例 from sklearn.datasets import load_breast_cancer from sklearn.model_selecti
- 对于任意一个模型理论上都可以画出如下的模型复杂度曲线,横轴为复杂度(回归问题为几次方,knn为k等),纵轴为准确率(回归可以为R^2,MSE等,分类如分类准确率、查准率等)