第一部分:基本含义
机器学习又叫做监督学习,主要核心点就在“监督”二字,代表的是有确切的标签值;举个比较形象的例子,就好比你做小学数学题,你数后面有正确答案,你昨晚之后能够进行对照。
同时,机器学习的主要研究任务主要包括两个部分:分类+回归
第二部分:分类问题
(1)基础含义
分类顾名思义,就是将某个事物归为某个类别,想要找到某一条界限,将事物进行分为不同的类别。
(2)二分类问题
这个事物的归属主要有两类,比如小时候我们都喜欢将人分为好人和坏人两类。对应1和0,是离散的。
(3)多分类问题
这个事物的归类有多种,比如给你一个文具,要你判断这个文具是“铅笔”还是“尺子”还是“橡皮”等等,或者一个地图场景,分类结果为当前指向(东西南北)。
多分类问题的特点就是各个子分类之间互相之间没有交集,之和为1.(比如东西南北,各个占25%,总和为100%)
(4)多标签分类
多标签分类是在多分类基础上的进一步升级,多分类问题可以认为是多个多分类,对于两个“不同”事物AB,从“某种角度”来看,它们之间的标签并不是互斥的,可能一样:
以上图为例:如果仅仅是多分类任务,我们可以识别他手中携带的是一个“皮包”叫做对象A,脚上穿的是一个“皮鞋”,叫做B。很显然,多分类问题下,从装饰品功能上来看,“皮包”≠“皮鞋”;
但是以多标签分类,这个“皮包”和“皮鞋”颜色都是“深褐色”,也就是从颜色的角度来看,“皮包”=“皮鞋”。
那我为什么说多标签分类是多种多分类任务呢:
以上述我们说的这个为例,我们可以先从装饰品功能上来进行分类,得到“皮包”≠“皮鞋”;再从颜色上进行分类,得到“皮包”=“皮鞋”;
(5)三种分类的联系
在生活中,这三种分类并不是完全独立的,比如以前两年我们做核酸为例:
①以结果为导向,测量得到的肯定是我们是否是“阳性”或“阴性”,这是一个二分类问题;
②如果我们患有的是阳性,那么我们又可以进行细分,看下我们患有的这种病毒属于哪一类病毒,这又变成了多分类问题;
③患有的这些病毒之间可能也有一些共性,比如研究这个病毒是否具有传染特性(那么A和B两个对象就都可能归于这一类),这又变成了多标签分类问题。
第三部分:回归问题
(1)基本含义
回归问题主要研究的目的是预测。这个回归的英文单词是“regression”,回到中心点,说实话就是回到平均值点,有已有的这些点组成的先就叫做回归线;那么整出这个回归有什么用呢?比如我们在生活中看天气预报,我们想要根据过去一周的天气预报,预测一下明天下雨的概率是多少?这就是回归所要研究的问题,它主要是通过过去7天的数据,研究他们之间的相互关系,然后画出一条f(x)线,输入明天的一些基本特征值,来得出最终是否下雨。
回归问题输出的数据结果是连续的。
(2)线性回归
线性回归,顾名思义,这个f(x)是一条直线,y=kx+b.
(3)多项式回归
多项式回归,就是上面的线性回归无法满足预测,得到的误差值太大,需要用到更加复杂的f(x)才可以,那么这个多项式你就可以理解成二次函数,三次函数等高阶函数。
(4)逻辑回归
逻辑回归的本质是用来做分类问题,那么很多人就该好奇了,你做分类问题就做分类问题呗,非要整个逻辑回归干什么,净找麻烦吗?
实际上则不然,回归问题在实际处理过程中用的的核心思想是“逼近”,它得到的这个f(x)左右两边是有一个区域范围间隔的,而上述一般的二分类是没有的。
也就是说,逻辑回归和二分类在求f(x)上的思想是不一样的,但是他们的目的是一样的,都是用来分类。
第四部分:分类和回归之间的联系
分类和回归之间并不是独立的,他们也可以相互转换,本质上就是离散数据和连续数据之间的相互转换。
比如以刚刚我们说的天气预测问题:
①如果是根据原有的数据,想要看看明天是属于哪一种天气(晴天,阴天,雨天,雾天等等),那么这就是个多分类问题;
②如果是根据原有的数据,想要预测明天下雨的概率是多少,输出的结果可能是介于0到1之间的数字,比如0.8,代表的就是下雨的概率是80%,那么这就是个回归问题。