本篇内容为学习吴恩达老师的机器学习基础课程之后的感悟,仅供参考,如果有哪里不准确或不详细,也希望大佬能指出。
一、机器学习
用一句话来讲,机器学习就是指将一批样本数据交给机器进行反复训练,从而得到能够做出预测、分类、聚类、评估等功能的机器。而机器通常指的就是计算机,所以是通过以往样本的训练让计算机在解决某一实际问题上获得学习能力,从而能够在这一方面上为新样本数据作出一轮决策。
比如在跳棋游戏中通过让计算机进行大量与新手的跳棋演练,来训练出与新手跳棋时能获胜的概率;又比如在判断肿瘤是否良性的问题中,先将一批已知的样本集合交给计算机进行训练,再将新的样本点输入到计算机中,来判断新的样本中肿瘤是否为良性。
而机器学习根据事先给出的样本集合是否已做好分类或汇总,可分为有监督学习和无监督学习
二、有监督学习
有监督学习是指事先给出的样本集合已做好分类或汇总,再交给机器进行训练的学习方式。
比如在上面提到的判断肿瘤是否良性的问题,我们事先给出的样本集中的变量有两个:一个是肿瘤大小,另一个就是虚拟变量,即是否良性。同时在这个样本集中,肿瘤大小和虚拟变量的值都是已知的,所以就是要求机器根据以往的经验,来判断下一个新样本中肿瘤为良性的概率有多大,或者判断下一个样本中肿瘤是否为良性。
三、无监督学习
无监督学习则是事先并未对样本集合做出分类或汇总,再交给机器通进行判断的学习方式。其大多应用于聚类分析这一方法领域中。
比如在分析市场客户问题中,我们事先给出的样本集中的已知值的变量有许多种,包括某月末消费额度等等,但是体现结果的虚拟变量,即是否违约,是事先未知的,因此我们将这批样本集输入到计算机中,要求计算机根据某一指标(一般是距离)来判断客户之间的相似度,并进行合并,从而划分出某几类客户,便于我们进行分析决策。
又比如在音轨处理中,通过无监督学习,可以将两个有差别的声音分离出来,实现人声分离的效果。
图源:来自网络