机器学习基本方法

一、模型评估与模型参数的选择

        损失函数:若对于给定的输入𝑥,若某个模型的输 出𝑦 '= 𝑓 '(𝑥)偏离真实目标值𝑦,那么就 说明模型存y'偏离𝑦的程度可以用关于𝑦'和𝑦某个函数来表示,作为误差的度量标准;这样的函数L(y,y') 称为损失函数。

数据集:训练集、验证集、测试集

1.误差 

        • 误差:预测输出𝑦'与真实输出𝑦之间的差异;
        • 经验误差、训练误差:在 训练集上的误差;
        • 泛化误差:在新样本上的误差。 
        • 泛化误差越小越好,经验误差不一定越小越好,可能导致过拟合。
 
2.关系
 
        •训练集相当于上课学知识
        •验证集相当于课后的的练习题,用来纠正和强化学到的知识
        •测试集相当于期末考试,用来最终评估学习效果
 
3.验证集的两个主要的作用
        1. 评估模型效果,为了调整超参数而服务
        2.调整超参数,使得模型在验证集上的效果最好
 
        • 验证集不像训练集和测试集,它 是非必需的 如果不需要调整超参数,就可以不使用验证集, 直接用测试集来评估效果。
        • 验证集评估出来的效果并非模型的最终效果,主要是用来调整超参数的,模型最终效果以测
试集的评估结果为准。
 
4.数据集的划分
     小规模样本集(几万量级)
        • 训练集:验证集:测试集=6:2:2
        • 训练集:测试集==8:2、7:3
    大规模样本集(百万级以上)
        只要验证集和测试集的数量足够即可。
 
5.过拟合:将训练样本自身的一些特点当作所 有样本潜在的泛化特点。
         表现:在训练集上表现很好,在测试集上表 现不好。
         过拟合的原因
        训练数据太少(比如只有几百组)
        模型的复杂度太高(比如隐藏层层数设置的过多,神经元的数量设置的过大)
        数据不纯
6.防正过拟合的方法
       1.移除特征,降低模型的复杂度:减少神经元的个数,
减少隐藏层的层数
       2.训练集增加更多的数据
       3.重新清洗数据
       4.数据增强
       5.正则化
       6. 早停
 
 
二、监督学习
 

1、监督学习——回归

        回归问题在生活中非常常见,其最简单的形式是一个连续函数的拟合。

        回归问题中通常使用均方损失函数来作为度量模型效果的指标,最简单的求解例子是最小二乘法。

        简单线性回归:自变量 x 和因变量 y之间存在一条线性关系:c31e99757e51436081c28111ec3e2f54.png

        多元线性回归:假设自变量 和因变量 y之间存在一条线性关系:      68d9713dc42c4cfdad7a3f465b1f8f98.png                           ​​​​​​​

线性回归可以预测的场景:

        a.预测房价

        b.预测销售额、

2、监督学习——分类

        想要预测(检测)的目标是猫,那么在数据集中猫为正样本(Positive),其他狗、兔子、狮子这些数据为负样本(Negative)。


       将这只猫预测(分类)为狗、兔子、其他预测结果为错(False);将这只猫预测为猫,预测结果为对(True)。

aa211a66c8494ea9848345adc6005785.jpg

        准确率(Accuracy):对于测试集中D个样本,有k个被正确分类,D-k个被错误分类,则准确率为:c9ab86a19bc34086acb8692b951e1c70.png
 

        精确率(查准率)- Precision:所有被预测为正样本中实际为正样本的概率

2c37d054e90f4effa87a4986b19a658c.png

        精准率代表对正样本结果中的预测准确程度。
准确率则代表整体的预测准确程度,既包括正样本,也包括负样本。

 

        召回率(查全率)- Recall:实际为正样本中被预测为正样本的概率

303245dab89f4cc49b2a4ff47d8fa911.png

召回率的应用场景:
        比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。
召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错杀一千,绝不放过一个。


       召回率越高,也代表网络可以改进的空间越大。 

7e6f894fa03a477f94a2cb215800a01d.png

       1.监督学习与非监督学习主要针对数据集定义。

       2.有监督数据集需要人工标注,成本较为昂贵,但是在训练模型时往往能够保障效果。

       3.无监督数据集一般不需要过多人工操作,可以通过爬虫等方式自动大量获得。

      4.由于没有监督信息的约束,需要设计巧妙的学习算法才能有效利用无监督数据集训练模型,不过大量廉价数据可以从另一个方面提高模型性能。

      5.模型评估需要根据模型的训练历史判断模型是否处于欠拟合或过拟合状态。尽管有一定的规律作为指导,而且有一些工具可以辅助分析,但是模型的评估过程一般需要较为丰富的经验。

 
 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值