机器学习基石ch4

四、Feasibility of Learning

机器学习的可能性。

4.1 Learning is Impossible

学习可能是做不到的。

在训练样本集(in-sample)中,可以求得一个最佳的假设g,该假设最大可能的接近目标函数f,但是在训练样本集之外的其他样本(out-of-sample)中,假设g和目标函数f可能差别很远。

 

4.2 Probability to the Rescue

可能的补救方式。

通过上一小节,我们得到一个结论,机器学习无法求得近似目标函数f的假设函数g。

回忆在以前学过的知识中,有无遇到过类似的问题:通过少量的已知样本推论整个样本集的情况。

是否想到一个曾经学过的知识,其实就是概率统计中的知识。

通过一个例子来复习下该知识。有一个罐子,这个罐子里盛放着橙色和绿色两种颜色的小球,我们如何在不查遍所有小球的情况下,得知罐子中橙子小球所占的比例呢?抽取样本,如图4-1所示。

 

图4-1 抽取样本

 

假设罐子中橙色小球的概率为,不难得出绿色小球的概率为,其中 为未知值;

而通过抽样查出的橙色小球比例为,绿色小球的比例为 是从抽样数据中计算出的,因此为已知值。

如何通过已知样本,求得未知的样本

可以想象到,在很大的几率上接近的结果。因为在罐子里的小球均匀搅拌过后,抽出小球中的橙色小球比例很有可能接近整个罐子中橙色小球的比例,不难想象在抽出的小球数量等于罐中小球数量时,两者完全一致。

这其中不了解的是,到底有多大的可能性两者接近?此处使用数学的方式给予答案,如公式4-1所示。

 

    (公式4-1)

 

该公式称之为霍夫丁不等式(Hoeffding's Inequality),其中P为概率符号, 表示的接近程度, 为此程度的下界,N表示样本数量,其中不等式左边表示 之间相差大于某值时的概率。从该不等式不难得出,随着样本量的增大, 相差较大的概率就不断变小。两者相差越多,即越大,该概率越低,就意味着 相等的结论大概近似正确(probably approximately correct PAC)。

同时可以得出当N足够大时,能够从已知的 推导出未知的

 

4.3 Connection to Learning

联系到机器学习上。

上一节得出的结论可以扩展到其他应用场景,其中包括机器学习。

为方便理解,做一个对比表,如表4-1所示。

 

表4-1 机器学习与统计中的对比

罐子小球

机器学习

未知的橙色小球比例

某一确定的假设在整个X输入空间中,输入向量x满足条件 的占整个输入空间的比例

抽取的小球∈整个罐子中的小球

训练输入样本集 整个数据集X

橙色小球

假设h作用于此输入向量x与给定的输出不相等

绿色小球

假设h作用于此输入向量x与给定的输出相等

小球样本是从罐子中独立随机抽取的

输入样本x是从整个数据集D中独立随机选择的

 

更通俗一点的解释上表表达的内容:训练输入样本集类比随机抽取的小球样本;此样本集中,先确定一个假设函数h,满足条件的输入向量x占整个样本的比例类比于橙色小球在随机抽取小球样本的比例,写成公式的形式可以入公式4-2所示;因此使用上一节中的PAC((可能近似正确的理论),在整个输入空间中这个固定的假设函数h同目标函数f不相等的输入量占整个输入空间数量的概率 的取值如公式4-3所示)与上述随机样本中两个函数不相等的样本数占抽样数的比例 相同,这一结论也是大概近似正确的。

 

(公式4-2)

(公式4-3)

 

其中N为随机独立抽样的样本数,X为整个输入空间, 满足条件为1否则为0,E为取期望值。

对1.4节的机器学习流程图进行扩展,得到如图4-2所示。

 

图4-2 引入统计学知识的机器学习流程图

 

其中虚线表示未知概率P对随机抽样以及概率 的影响,实线表示已经随机抽出的训练样本及某一确定的假设对比例 的影响。

得出的结论如下:对任意已确定的假设函数h,都可以通过已知的求出未知的

以后我们将使用 这种专业的符号,分别表示在某一确定的假设函数h中,随机抽样得到的样本错误率和整个输入空间的错误率,同样可以使用霍夫丁不等式对以上得到的结论做出相应的数学表达,如公式4-4所示。

 

    (公式4-4)

 

但是,我们想得到的不是给定一个已确定的假设函数h,通过样本的错误比例来推断出在整个输入空间上的错误概率,而是在整个输入空间上同目标函数f最接近的假设函数h。

那如何实现最接近呢?说白了错误率最低。只需在上述结论上再加一个条件,即错误比例 很小即可。总结下,在结论基础之上,加上 很小,可以推出 也很小,即在整个输入空间中h≈f。

上面说了那么多,可能很多人已经糊涂了,因为这并不是一个学习问题,而是一个固定假设函数h,判断该假设函数是否满足上述性质,这准确的讲是一种确认(Verification),确实如此,这种形式不能称为学习,如图4-3所示。

 

图4-3 确认流程图

 

4.4 Connection to Real Learning

联系到真正的学习上。

首先我们要再次确认下我们上一小节确定的概念,要寻找的是一个使得 很小的假设函数h,这样就可以使得h和目标函数f在整个输入空间中也很接近。

继续以丢硬币为例,形象的观察这种学习方法有无问题,如图4-4所示。

 

图4-4 丢硬币的例子

 

假设有150个人同时丢五次硬币,统计其中有一个人丢出五次全部正面向上的概率是多少,不难得出一个人丢出五次正面向上的概率为 ,则150人中有一人丢出全正面向上的概率为

这其中抛出正面类比于绿色小球的概率也就是。当然从选择的角度肯定要选择犯错最小的,即正面尽可能多的情况,此例中不难发现存在全部都为正面的概率是非常大的,此处应注意,选择全为正面的或者说 为0 并不正确(因为想得到的结果是 ,而不是99%)这一结论与真实的情况或者说 差的太远(我们不仅仅要满足 很小条件,同时还要使得 不能有太大差距)。因此这种不好的样本的存在得到了很糟糕的结果。

上面介绍了坏的样例(bad sample),把本来很高的,通过一个使得的坏抽样样本进行了错误的估计。

到底是什么造成了这种错误,要深入了解。我们还需要介绍坏的数据(bad data)的概念。(这里写一下自己的理解,坏的样本bad sample∈坏的数据bad data)

坏的数据就是使得 相差很大时,抽样到的N个输入样本(我的理解不是这N个输入样本都不好,可能只是有几个不好的样本,导致该次抽样的数据产生不好的结果,但此次抽样的数据集被统一叫做坏的数据),根据霍夫丁不等式这种情况很少出现,但是并不代表没有,特别是当进行假设函数的选择时,它的影响会被放大,以下进行一个具体的说明,如表4-2所示。

 

表4-2 单个假设函数时的霍夫丁不等式

 

D1

D2

D1126

D5678

霍夫丁

h

BAD

    

BAD

 

 

计算所有不好的D出现的概率如公式4-5所示。

 

    (公式4-5)

 

单一假设函数中不好的D出现的概率其实不算高,但是当在做选择时,面对的是从整个假设空间选出的无数种可能的假设,因此不好D的计算就有所改变,当然我们先讨论假设函数是有限多种的情况,如表4-3所示。

 

表4-3 M个假设情况下的霍夫丁不等式

 

D1

D2

D1126

D5678

霍夫丁

 

BAD

    

BAD

 

  

BAD

     

 

BAD

BAD

   

BAD

 

 

        
 

BAD

    

BAD

 

ALL

BAD

BAD

   

BAD

 

?

 

这其中包含了M个假设,而不好的D不是由单一假设就确定的,而是只要有一个假设在此抽样D上表现不好则该抽样被标记为坏的,因此霍夫丁不等式如公式4-6所示。

 

(联合上界)

    (公式4-6)

 

因此如果|H|=M的这种有限情况下,抽样样本N足够大时,可以确保假设空间中每个假设都满足

如果通过算法找出的g满足 ,则通过PAC的规则可以保证

【语音分离】基于平均谐波结构建模的无监督单声道音乐声源分离(Matlab代码实现)内容概要:本文介绍了基于平均谐波结构建模的无监督单声道音乐声源分离方法,并提供了相应的Matlab代码实现。该方法通过对音乐信号中的谐波结构进行建模,利用音源间的频率特征差异,实现对混合音频中不同乐器或人声成分的有效分离。整个过程无需标注数据,属于无监督学习范畴,适用于单通道录音场景下的语音与音乐分离任务。文中强调了算法的可复现性,并附带完整的仿真资源链接,便于读者学习与验证。; 适合人群:具备一定信号处理基础和Matlab编程能力的高校学生、科研人员及从事音频处理、语音识别等相关领域的工程师;尤其适合希望深入理解声源分离原理并进行算法仿真实践的研究者。; 使用场景及目标:①用于音乐音频中人声与伴奏的分离,或不同乐器之间的分离;②支持无监督条件下的语音处理研究,推动盲源分离技术的发展;③作为学术论文复现、课程项目开发或科研原型验证的技术参考。; 阅读建议:建议读者结合提供的Matlab代码与网盘资料同步运行调试,重点关注谐波建模与频谱分解的实现细节,同时可扩展学习盲源分离中的其他方法如独立成分分析(ICA)或非负矩阵分解(NMF),以加深对音频信号分离机制的理解。
内容概要:本文系统介绍了新能源汽车领域智能底盘技术的发展背景、演进历程、核心技术架构及创新形态。文章指出智能底盘作为智能汽车的核心执行层,通过线控化(X-By-Wire)和域控化实现驱动、制动、转向、悬架的精准主动控制,支撑高阶智能驾驶落地。技术发展历经机械、机电混合到智能三个阶段,当前以线控转向、线控制动、域控制器等为核心,并辅以传感器、车规级芯片、功能安全等配套技术。文中还重点探讨了“智能滑板底盘”这一创新形态,强调其高度集成化、模块化优势及其在成本、灵活性、空间利用等方面的潜力。最后通过“2025智能底盘先锋计划”的实车测试案例,展示了智能底盘在真实场景中的安全与性能表现,推动技术从研发走向市场验证。; 适合人群:汽车电子工程师、智能汽车研发人员、新能源汽车领域技术人员及对智能底盘技术感兴趣的从业者;具备一定汽车工程或控制系统基础知识的专业人士。; 使用场景及目标:①深入了解智能底盘的技术演进路径与系统架构;②掌握线控技术、域控制器、滑板底盘等关键技术原理与应用场景;③为智能汽车底盘研发、系统集成与技术创新提供理论支持与实践参考。; 阅读建议:建议结合实际车型和技术标准进行延伸学习,关注政策导向与行业测试动态,注重理论与实车验证相结合,全面理解智能底盘从技术构想到商业化落地的全过程。
【顶级EI复现】计及连锁故障传播路径的电力系统 N-k 多阶段双层优化及故障场景筛选模型(Matlab代码实现)内容概要:本文介绍了名为《【顶级EI复现】计及连锁故障传播路径的电力系统 N-k 多阶段双层优化及故障场景筛选模型(Matlab代码实现)》的技术资源,重点围绕电力系统中连锁故障的传播路径展开研究,提出了一种N-k多阶段双层优化模型,并结合故障场景筛选方法,用于提升电力系统在复杂故障条件下的安全性与鲁棒性。该模型通过Matlab代码实现,具备较强的工程应用价值和学术参考意义,适用于电力系统风险评估、脆弱性分析及预防控制策略设计等场景。文中还列举了大量相关的科研技术支持方向,涵盖智能优化算法、机器学习、路径规划、信号处理、电力系统管理等多个领域,展示了广泛的仿真与复现能力。; 适合人群:具备电力系统、自动化、电气工程等相关背景,熟悉Matlab编程,有一定科研基础的研究生、高校教师及工程技术人员。; 使用场景及目标:①用于电力系统连锁故障建模与风险评估研究;②支撑高水平论文(如EI/SCI)的模型复现与算法验证;③为电网安全分析、故障传播防控提供优化决策工具;④结合YALMIP等工具进行数学规划求解,提升科研效率。; 阅读建议:建议读者结合提供的网盘资源,下载完整代码与案例进行实践操作,重点关注双层优化结构与场景筛选逻辑的设计思路,同时可参考文档中提及的其他复现案例拓展研究视野。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值