机器学习基石笔记(1-2)——The Learning Problem & Learning to Answer Yes/No

本文深入探讨了机器学习的概念,强调通过数据学习模式的重要性。介绍了机器学习的应用,如预测餐厅卫生、服饰推荐、自动驾驶等,并详细解析了机器学习的组件,包括输入数据、输出数据和目标函数。接着,文章详细阐述了感知机模型和感知机学习算法,讨论了线性可分性以及非线性数据处理。最后,针对非线性可分数据,提出了口袋算法作为改进策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.2 What is Machine Learning

1.2.1 什么是学习:通过观察获得一个方面的技巧或增强。机器学习即通过观察数据来得到某一方面的增强。 
1.2.2 机器学习的三个关键 
  (1)存在一个用以识别的模式 
  (2)这个模式难以简单定义 
  (3)存在数据用以学习

1.3 Applications of Machine Learning

  (1)食:利用Twitter数据预测餐厅卫生质量。 
  (2)衣:利用销售数据和客户调查进行服饰搭配推荐。 
  (3)住:利用房屋特征及能耗进行新房屋结构能耗预测。 
  (4)行:自动驾驶。 
  (5)教育:根据学生做题记录预测学生是否会做特定题目。 
  (6)娱乐:推荐系统。

1.4 Components of Machine Learning

1.4.1 机器学习的几个主要部分 
  输入数据X,输出数据Y,未知的目标函数f,观察到的数据D,假设空间H。 
1.4.2 机器学习流程 
  已知的数据D是根据未知的目标函数f生成的,我们利用学习算法A根据数据分布D找出一个逼近函数f的函数g,f和g的相似程度越高越好。 
1.4.3 学习模型 
  假设空间H包含所有可能的g,A和H组合即为学习模型。

2.1 Perceptron Hypothesis Set

  感知机的假设空间:认为输入实例的特征向量上的每个分量都有一个权重,其加权和若高于阈值则判正例,否则判负例。该模型可变型为加权和减阈值取符号,若正判正例否则判负例,将阈值的负数作为0维权重,1作为0维特征分量,模型可写成h(x)=sign(wTx)。 
  该函数的几何意义是n维空间上的超平面。特征分量越重要权值越高,否则越小或者为负。

2.2 Perceptron Learning Algorithm

  感知机的学习方法(PLA):当判断训练实例发生错误时:wt+1=wt+yn(t)xn(t),其中n是第n个实例,t是第t次迭代。其几何意义是,当正例判负时,说明加权向量的线在实例点上方,故缩小加权向量与实例向量(从0到实例点的向量)的夹角,让该实例更容易判正,反之亦然。 
  一个有趣的公式:ynwTt+1xn≥ynwTtxn,说明对于第n个实例来说,这一次的修订可能会使它被正确划分。

2.3 Guarantee of PLA

2.3.1 线性可分:如果所有训练数据都能用一个超平面分成正反两类,则称其为线性可分,否则为线性不可分。 
2.3.2 PLA的收敛性 
  (1)yn(t)wTfxn(t)≥minnynwTfxn导出wt不停接近wf 
该公式表明,如果理想划分wTf存在的话,那么在所有被错误划分的点中,存在一个离理想超平面最近的点xn,所以wTfwt+1>wTfwt+minnynwTfxn>wTfwt,说明wt不停接近wf。 
  (2) ||wt||不会增长太快 
||wt+1||2拆分成wt的表达式,去掉中间的负项得||wt+1||2≤||wt||2+maxn||xn||2。可见其增长的最大速度是实例中范数最大的向量的范数。 
  (3)根据以上两式联合推导 

1≥wTfwt||wf||·||wt||≥T‾‾√ρR


其中R=maxn||xn||2ρ=minnynwTfxn||wf||。上述等式的左边与右边变型即得T的上界。

 

2.4 Non-Separable Data

  口袋算法:在PLA的基础上记录到目前为止划分效果最好的方案,并将PLA每次迭代生成的方案与最好方案进行对比,留下较好者。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值