大数据文摘作品
编译:文明、笪洁琼、天培
今天,文摘菌想谈谈监督学习。
监督学习作为运用最广泛的机器学习方法,一直以来都是从数据挖掘信息的重要手段。即便是在无监督学习兴起的近日,监督学习也依旧是入门机器学习的钥匙。
在这里我还是要推荐下我自己建的Python开发学习群:483546416,都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,今天分享的这个案例已经上传到群文件,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2017最新的Python零基础资料和Python进阶教程,欢迎进加入
这篇监督学习教程适用于刚入门机器学习的小白。
当然了,如果你已经熟练掌握监督学习,也不妨快速浏览这篇教程,检验一下自己的理解程度~
什么是监督学习?
在监督学习中,我们首先导入包含有训练属性和目标属性的数据集。监督学习算法会从数据集中学习得出训练样本和其目标变量之间的关系,然后将学习到的关系对新样本(未被标记的样本)进行分类。
为了阐明监督学习的工作原理,我们用根据学生学习时间预测其考试成绩的例子来说明。
用数学表示,即Y = f(X)+ C,其中
-
f表示学生学习时间和考试成绩之间的关系
-
X表示输入(学习小时数)
-
Y表示输出(考试分数)
-
C表示随机误差
监督学习算法的终极目标是给出新的输入X,使得预测结果Y的准确率最大。有很多方法可以实现有监督学习,我们将探讨几种最常用的方法。
根据给定的数据集,机器学习可以分为两大类:分类(Classification)和回归(Regression)。如果给定的数据集的输出值是类别,那么待解决是分类问题。如果给定的数据集的输出值是连续的,那么该问题是回归问题。
举两个例子
分类:判断是猫还是狗。
回归:房子的售价是多少?
分类
考虑这样一个例子,医学研究员想要分析乳腺癌数据,用于预测患者使用三种治疗方案中的哪一种。该数据分析问题就属于分类问题,通过建立分类模型来预测类别标签,例如“治疗方案A”、“治疗方案B”或者“治疗方案C”。
分类是一个预测类别标签的预测问题,这些类别标签都是离散和无序的。分类包含两个步骤:学习步骤和分类步骤。
分类方法和选择最优方法