最近开始学习机器学习,有点心得体会,记录一下,希望大家批评指正
监督学习(supervised learning)
根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。
通俗一点,可以把机器学习理解为我们教机器如何做事情。
监督学习的分类:回归(Regression)、分类(Classification)
回归(regression)——线性回归
回归问题是针对连续性变量的。例如预测房屋价格,根据数据集来画直线或者是二阶导数等来拟合数据,直线和曲线拟合出来的结果是不一样的,所以要不断训练学习,找到最合适的模型来拟合数据。
回归通俗一点就是,对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里的y就是数据的标签,而对于一个新的自变量x,就是通过这个函数模型得到标签y。
分类(Classification) ——逻辑回归
( 线性回归可以预测连续值,但是不能解决分类问题,我们需要坐的是根据预测的结果来判定其属于正类还是负类。逻辑回归就是将线性回归的结果,通过sigmoid函数映射到(0,1)之间。所以说逻辑回归最终解决的是分类问题 )
和回归问题不同,分类问题是针对离散型变量的,输出的结果是有限的。例如,目前预测肿瘤是良性还是恶性的,恶性标为1,良性标为0。
简单来说,分类就是通过分析输入的特征向量,让一个新的向量得到标签,判定其数属于哪一类。