参考视频:【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导_哔哩哔哩_bilibili
基本概念:
样本:关于事件或对象的描述,其实可以直接看为一组向量。
例1:色泽青绿,根蒂蜷缩,敲声清脆的西瓜:x = (青绿;蜷缩;清脆);不难发现x就是一组向量,每个维度用来描述瓜的一个特征。注意“;”表示列向量,“,”表示行向量(一个维度不止一个值的情况);由于机器看不懂汉字,所以得转化成数值表示;拿颜色青绿和深绿举例,可以设为一个0,一个1。
标记:机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,该方面的信息为“标记”。
人话就是判断一个瓜熟没熟(表现);我可以根据声响or颜色or...(规律)来判断。
标记通常也看做样本的一部分,如例1,如果它打开是个好瓜,那“好”本身也是对瓜的描述;因此一个完整的样本通常表示为(x, y),
一条西瓜样本:
x = (青绿;蜷缩;清脆),y=好瓜
样本空间:也称为“输入空间”或“属性空间”。由于样本采用的是标明各个特征取值的“特征向量"来进行表示,根据线性代数的知识可知,有向量便会有向量所在的空间,因此称表示样本的特征向量所在的空间为样本空间,通常用花式大写的x表示;例1的样本空间就是三维空间。
标记空间:标记所在的空间,数学表示为花式大写的y;例1的标记空间是一维的,记好瓜为1,坏瓜为0,大花y={0, 1}。
分类任务:想预测的结果为离散型则是分类任务;例1就是分类型,把瓜分为好瓜坏瓜;这种非黑即白的分类任务又被称为二分类任务;当然还有把瓜分为黄瓜,白瓜,红瓜,黑瓜这种超过两类的分类任务。
回归任务:要预测的结果为连续型则是回归任务。
例2:吃一斤饭猪会长胖一斤;吃两斤饭会长胖:四斤,想预测吃x斤的饭,能长胖多少斤
泛化:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确与否才是衡量这个模型好坏的关键,我们称此为“泛化"能力。
例3:接例2;我们可以设模型1为y = 3x - 2(线性回归模型);设模型2为y = x^2(多项式回归);有新数据3为吃三斤饭长九斤肉,那我们则认为模型2泛化能力强。
分布: 此处的“分布”指的是概率论中的概率分布,通常假设样本空间服从一个未知分布D,而我们收集到的每个样本都是独立地从该分布中采样得到即独立同分布(接例2,采数据的时候尽量保证采一种/一个地区的猪的样本),通常收集到的样本越多,越能从样本中反推出D的信息,即越接近真相。
如果采的不是一种/一个地区的猪,也要假设为一个分布,不然没法算;说人话就是,你在假设函数时;不能(1,1)这个数据代入线性函数y=kx+b算,(2,4)这个数据代入多项式函数y=ax^2+bx+c算;(1,1),(2,4)要么全代入线性函数算;要么都代入多项式函数算
假设空间:猪猪吃饭问题我可以设多个模型(y=kx+b,y=ax^2+bx+c,...);这些得到的模型都是假设空间。
版本空间:可以拟合猪猪吃饭问题的假设空间为拟合空间。
归纳偏好:最常用的方法则是基于模型在测试集上的表现来评判模型之间的优劣。
数据决定模型的上限,而算法则是让模型无限逼近上限
数据决定模型效果的上限:其中数据是指从数据量和特征工程两个角度考虑。从数据量的角度来说,通常数据量越大模型效果越好,因为数据量大即表示累计的经验多,因此模型学习到的经验也多,自然表现效果越好。例如以上举例中如果训练集中含有相同颜色但根蒂不蜷缩的坏瓜,模型学到真相的概率则也会增大,从特征工程的角度来说,通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好,因为此时模型更易学得样本之间潜在的规律。例如学习区分亚洲人和非洲人时,此时样本即为人,在进行特征工程时,如果收集到每个样本的肤色特征,则其他特征例如年龄、身高和体重等便可省略,因为只需靠肤色这一个特征就足以区分亚洲人和非洲人。
算法则是让模型无限逼近上限:是指当数据相关的工作已准备充分时,接下来便可用各
种可适用的算法从数据中学习其潜在的规律进而得到模型,不同的算法学习得到的模型
效果自然有高低之分,效果越好则越逼近上限,即逼近真相。