yaser-1.学习问题

博客围绕学习问题展开,介绍了学习脉络,以电影打分和信贷评估为例阐述使用机器学习的原因。指出机器学习关键在于学习模式、无确定数学形式和数据,还讲解了学习模型、线性函数、权重向量更新等内容,最后说明学习理论前提及不同学习类型,强调满足特定条件才应用机器学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习脉络:

  1. 什么是学习?
  2. 可以学习么?
  3. 能够学习么?
  4. 能够更好的学习么?
  5. 家庭作业?

学习问题

运用一个实例进行解释:观众是如何对电影进行打分的?

10%improvement = 100万美元
为什么使用机器学习:

  • 电影评价相关的模式
  • 没有机器学习,我们无法精确的用数学描述出来
  • 有大量的数据
    机器学习的关键:
  • 一个学习模式
  • 没有确定的数学形式
  • 数据
评价的人有他的`喜好`:比如喜欢动作片?喜欢喜剧片?喜欢里面的演员等等。 而在电影`属性`,看其是否有喜剧元素,动作元素,是否是大片等等? 综合`匹配程度`来对影片进行评价。这还`不`是机器学习,你需要去采访观众,还需要自己去观看电影总结分析,而后进行匹配分析,而机器学习是`自动`完成以上的

机器学习是以上过程的反过程,观众和电影都是独立随机抽样的样本,从中渐渐学习到模式

信贷评估也是一样的:

Formalization:

  • input: X (申请人信息-矢量)
  • output:y (优质或劣质客户)
  • Target Function:f:x→yf: x\rightarrow{y}f:xy
  • Data:历史记录(Xi,yi),i=1,2,...(X_i,y_i),i=1,2,...(Xi,yi),i=1,2,...
  • Hypothesis:g:X→yg:X\rightarrow{y}gXy
    • 其出自于假设集

为什么使用假设集:(1)它没有坏处,假设集意味着更多的参考选择,意味着避免遗漏(2)它使许多问题更加明显

f是未知的,g是已知的,使g与F相似,G值 近似于 F值

字母大写表明相应函数关系的输出

h是H的一个子集,而g是其中的一个hh是H的一个子集,而g是其中的一个hhHgh

把他们放在一起就是一个学习模型:

输入:X=(x1,x2,...,xd)X = (x_1,x_2,...,x_d)X=x1,x2,...,xd
授权条件:∑idwixi>阈值\sum_i^dw_ix_i > 阈值idwixi> “w的大小控制相应属性的重要程度”
线性函数h可以写作:
h(x)=sign((∑idwixi)−threshold)h(x)=sign((\sum_i^dw_ix_i)-threshold)h(x)=sign((idwixi)threshold) 正负代表授权与否

左图的紫线就是一个随机权值的划分线,右图是经过学习过后纠正的划分线

h(x)=sign((∑idwixi)+w0)h(x)=sign((\sum_i^dw_ix_i)+w_0)h(x)=sign((idwixi)+w0) “可以把threshold换为w0w_0w0
但还需要做一些变换
W=(′w0′,w1,w2,...,wd)W=('w_0',w_1,w_2,...,w_d)W=(w0,w1,w2,...,wd) “W向量中加入了一个w0w_0w0
相应的,X=(1,x1,x2,...,xd)X=(1,x_1,x_2,...,x_d)X=(1,x1,x2,...,xd) “在W插入的相应位置插入一个1
这样就是上述的结果了。

进而向量化:

h(x)=sign(WTX)h(x)=sign(W^TX)h(x)=sign(WTX)

假设数据集是线性可分的,sign将他们映射到(-1,+1)之间

初始化假设函数之后,会出现许多的错误分类(回归):
sign(WTX)≠Ynsign(W^TX)\neq{Y_n}sign(WTX)̸=Yn

W和X的角度大于90°就是负的,反之就是正的

更新权重向量:

W←W+ynXnW\leftarrow{W+y_nX_n}WW+ynXn

如图所示,更新权重向量的原因主要在于W+ynXnW+y_nX_nW+ynXn,若分类错误,比如y为1而WTXW^TXWTX为负数(角度大于90°),结果就是W,XW,XW,X的平行四边形的对角线,逐渐就会修正为正数(角度小于90°)。若y为-1过程也是类似的。其可行性还要随着学习的深入深入思考。

若出现了错误分类的点,就迭代的执行W←W+ynXnW\leftarrow{W+y_nX_n}WW+ynXn,但就一次分类来看,其考虑了错误的点,很有可能修正一个点而导致更多点分类错误。但是只要数据集是线性可分的,那么经过迭代(可能需要很多次)最终一定会划分好。


学习理论产生的前提
用已有数据去挖掘一个潜在过程(目标函数)。

监督学习:输入,正确的输出
非监督学习:输入,?
加强学习:输入,一些正确的输出,输出的分数

Summary:

模式,不能用数学形式进行描述,数据
满足以上三个条件才应用机器学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值