机器学习入门基础概念(1)

时隔两年半,再次上我这个优快云账号。最近正好复习机器学习考试,就把一些基本的机器学习概念在博客记录一下,就当复习了。

 

一些概念:

什么是机器学习

1.什么是机器学习?

机器学习就是计算机基于数据建立概率统计模型,并运用模型对数据进行预测与分析的一门学科。

2.期望风险、经验风险与结构风险

期望风险可以看为关于P(X,Y)平均意义下的损失,机器学习的目标就是选择期望风险最小的模型。但事实上P(X,Y)我们是不知道的,如果知道的话我们就可以直接通过联合概率推导出条件概率,也就不需要学习这一过程了。我们虽然不能得到期望风险,但可以基于数据集(训练集部分)得到经验风险,经验风险就是关于数据集的平均损失。即每个样本真实标签与预测标签的损失除以数据集样本数量。由此,模型学习的策略就是希望经验风险最小。当数据量很大的时候,经验风险趋近于期望风险。但是当数据量很小的时候,一直优化经验风险离期望风险可能差距过大,会导致泛化误差大或者说发生了过拟合。所以通过结构风险来解决这一问题。通过在经验损失后加一个正则化项来衡量模型的参数复杂度。这样改进后的目标函数就可以应对过拟合。

3.生成模型与判别模型

有监督学习中可以将模型分为这么两大类,一类是生成模型,一类是判别模型。生成模型是基于数据的联合概率分布,推导出条件概率分布。直接可以通过概率计算,得到特定输入X生成Y的关系。主要利用的就是条件概率公式:P(Y|X)=P(X,Y)/P(X)。主要的代表模型就是朴素贝叶斯判别以及隐马尔科夫。

判别模型则是根据数据直接学习得到一个决策函数或条件概率分布函数。关心的是对于特定输入X,应该预测什么样的输出Y。判别模型包括k邻近算法、感知机、决策树等。

4.最大后验

最大后验简单来说可以看作对于给定X,找到最大的P(y=ck|X),得到相应的ck即为预测结果。可以直接由期望风险最小出发,利用全概率公式得到每一个y的条件概率乘期望风险求和,最终优化目标可以推导到取最大的P(y=ck|x)。

5.核函数

简单来说就是用核方法将输入空间映射到特征空间。核函数代表一种映射。对于一些非线性问题,在输入空间可能是线性的,但通过核函数映射到特征空间可以表示为线性的。核函数就是这样的一个映射,具体在非线性SVM中就有应用。

6.流形学习

将高维数据进行低维嵌入的过程,尽可能保留原有的流形结构。常见的流行学习算法如LLE。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值