机器学习中的数学

在机器学习中,有一些特有的表示方式,如下表所示:


每一列也称每一维度,因此,按照行来看,一个样本可能有n多维,降维的意思就是筛选特征

其中,每一纬都是一个分布,因此训练出的模型可能包含多个分布。

2 下面,讲一下期望、方差、协方差、矩的定义及意义;

2 .1  期望

离散


连续:


期望的性质:



如果随机变量x和y相互独立:


反之则不一定成立,如果满足上式,只能说x和y互不相关;

2.2 方差

即:


方差的性质:



2.3 协方差


协方差的性质:



如果x和y相互独立则协方差的值为0,也就是x和y不相关;这里我们把x作为特征,y为标签,也就是结果,如果,说明特征与结果的改变趋势是一样的,也就是特征变大,结果y就变大,如果是分类问题,假设某个样本的特征x越大,则该样本是Y类的可能性就越大,也就是x对y的影响较大;结果相反,说明该特征与结果不相关,也就是对结果没有影响,因此特征x和标签y之间的协方差可以用来筛选特征,将的特征去除掉;特征与特征之间的协方差,有什么意义?或者,那么,大于0说明两个特征的变化趋势一样的,因此可以去除掉其中一个,小于0说明两个特征的变化趋势相反,也采取保留一个的措施,我们只保留特征之间的协方差值近似0的特征,即保留相对独立的特征;

2.4

对于随机变量X的k阶原点矩:


k阶中心距


3 重要的定理与不等式

3.1  Jensen不等式


满足上面的Jensen不等式,则认为该函数是凸函数,就是碗口朝上的函数,一般情况下,二阶导数大于0就是凸函数

注意到系数值和为1,因此可以将其作为概率,故可以得到下式:


期望的函数要小于函数的期望

3.2 切比雪夫不等式

设随机变量x的期望为,方差为,那么对于任意的正数下式一定成立:


这个不等式说明了方差的意义,即方差越小,变量偏离期望的程度就越小;

3.3 大数定理

随机变量 X1 X2 X3......Xn相互独立,且有相同的期望和方差

定义


则:

说明样本越大,就越能代表整体;

4 用样本估计整体

如果X1 X2 X3 X4.......Xn为一组样本,则样本的均值x'为


方差为'


现在我们用足够多的样本均值x'来代替期望,同样用样本方差'来代替方差;

5 贝叶斯公式


这里,我们表示样本可能训练出的各种模型中的一个,我们需要求产生最大模型的概率,等价于求

因为假设产生每个模型的概率相等,因此可以看作常数,样本给定,也是常数;

故即求联合概率;

6最大似然估计

接上面的步骤:设总体分布为,其中X1 X2 X3 .......Xn为总体采样得到的n个独立的样本,于是联合概率密度为


这里我们将看作固定参数未知的量,反过来,我们样本已知,将看作参数,求导可以求出最大值,这样5的问题则解决了;








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值