数学概念

本文介绍了机器学习中的核心数学概念,包括凸集、凸函数、凸优化等基础知识,并深入探讨了概率论中的先验概率、后验概率及贝叶斯公式等关键概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数学概念

整理一些机器学习涉及的数学概念

凸集(convex set),实数R上(或复数C上)的向量空间中,如果集合S中任两点的连线上的点都在S内,则称集合S为凸集。 --自百度百科

凸函数就是一个定义在某个向量空间的凸子集C(区间)上的实值函数。

凸优化 是指一种比较特殊的优化,是指求取最小值的目标函数为凸函数的一类优化问题。其中,目标函数为凸函数且定义域为凸集的优化问题称为无约束凸优化问题。而目标函数和不等式约束函数均为凸函数,等式约束函数为仿射函数,并且定义域为凸集的优化问题为约束优化问题[1] 。

如右图所示
  
为目标函数,
  
为限制条件。 如果此处,目标函数和限制条件为凸函数,即满足下式时:
此优化问题即为一个凸优化问题


2.  概率分布

随机变量: 是一个可以等于一系列数值的变量,而这些数值中每个值都与一个特定概率相关联。

先验概率:(先验:在经验之前;)  指根据现有资料或以往经验 计算得到的概率.  (p(h),   p(D)和P(D|h) )

PS:先验概率的计算比较简单,没有使用贝叶斯公式

客观先验概率:利用过去历史资料计算得到的先验概率; 

主观先验概率:当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率。


后验概率:(后验:在经验之后;) 指通过调查或其它方式获取新的附加信息后,利用贝叶斯公式对先验概率进行修正的概率 .   (P(h|D))

PS:后验概率的计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多的数理统计知识

拓展- 后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。(既有先验概率资料,也有补充资料)


贝叶斯公式:P(h|D)=p(D|h) * p(h) / p(D)  

p(D|h):常被称为给定h 时数据D 的似然度,而使 P(D|h) 最大的假设被称为极大似然假设。

最大似然估计: 就是求在θ的定义域中,当似然函数取得最大值时θ的大小。



从实际需求中抽取概率表达:

【例子】考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。

样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。

假设我们已经有先验知识:在所有人口中只有0.008的人患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。

考虑一个医疗诊断问题,有两种可能的假设:

(1)病人有癌症。

(2)病人无癌症。

样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。

此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。


上面描述用概率方式表达为:

P(cancer)=0.008, P(无cancer)=0.992
P(阳性|cancer)=0.98,P(阴性|cancer)=0.02
P(阳性|无cancer)=0.03,P(阴性|无cancer)=0.97


共轭先验(conjugate prior):

现在假设我们有这样几类概率:P(\theta)(先验分布), p(\theta|X)(后验分布), p(X), p(X|\theta) (似然函数)

它们之间的关系可以通过贝叶斯公式进行连接: 后验分布 = 似然函数* 先验分布/ P(X)

之所以采用共轭先验的原因是可以使得先验分布和后验分布的形式相同,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验

分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

为了使得先验分布和后验分布的形式相同,我们定义:

如果先验分布和似然函数可以使得先验分布和后验分布有相同的形式,那么就称先验分布与似然函数是共轭的

共轭是指的先验分布和似然函数


........【未完待继】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值