训练集,测试集,验证集、一些对机器学习术语的掌握

本文探讨了机器学习中训练集、测试集和验证集的使用,解释了特征工程、损失函数选择、学习率调整的重要性,并讨论了正则化、分类评估指标以及嵌入技术在处理大规模输入数据中的应用。

训练集用于训练模型,然后经过几次迭代后使用测试集测试模型,要保证训练集和测试集是分开的,不能在训练集中混入测试数据。
在这里插入图片描述
但是尽管这样,但是模型还是会在测试集中学习到东西导致过拟合的发生,也就是测试结果效果特别好。
所以选择将数据集划分成三个:训练集、测试集、验证集
在这里插入图片描述
在这里插入图片描述
样本:
有标签样本:特征+标签
无标签样本
模型:
训练时给出特征和标签,让模型学习特征并逐渐与标签建立联系。
测试时不给出标签,让模型自己去将测试样本归类,然后与真实标签比较,看正确率
在这里插入图片描述
特征和标签的选择:
合适的特征应该可量化,美观不是实用特征,可以使用样式和颜色这样的具体来表现
用户喜欢的鞋子不能做标签,应该选择用户点击鞋子的次数,可量化才可选择作为特征或者标签
在这里插入图片描述
损失:
L2损失就是平方损失Loss^2
在这里插入图片描述
MSE 就是平方损失和然后平均
虽然 MSE 常用于机器学习,但它既不是唯一实用的损失函数,也不是适用于所有情形的最佳损失函数。
每一种损失函数都不是所有模型都实用,要根据不同模型选择合适的损失函数,或者自己设计损失函数
在这里插入图片描述
学习率
在这里插入图片描述
学习率过大也不行,像之前遇到过的问题,如果发现训练损失稳定在某个值不下降,那么就要减小batch_size,减小学习率,这样让模型从样本中学习更多信息
在这里插入图片描述
这个金发学习率就是调参中找到的最好的
小批量SGD:
在这里插入图片描述
特征工程:原始数据转换成特征矢量,也就是模型需要的特征表示形式,这个过程需要大量时间
在这里插入图片描述
映射分类值:得到一个词汇表
在这里插入图片描述
在这里插入图片描述
对于像street_name这种特征不唯一的,如果使用1,2,3这样来标记街道,那么如果一个房子处于两个街道的交界处呢?那就需要两个标记,这样一个特征就需要的是两个值,所以这种数组的编码形式不能满足。
我们一般采用独热码,当是那个街区时,就标记为1,否则标记为0,多个街区就用向量表示:[0,0,0,1,0,…,0]
在这里插入图片描述
在这里插入图片描述
良好的特征选取:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
数据清理:
1、缩放特征值
在这里插入图片描述
在这里插入图片描述
2、处理极端离群值
3、分箱
将房屋按维度进行划分,一座城市划分几个维度,那么这就是分箱,分箱之后,就可以使用独热编码来表示维度这个特征
在这里插入图片描述
4、清查
在这里插入图片描述
特征组合:
对非线性问题的处理
在这里插入图片描述
在这里插入图片描述
L2正则化:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
简单来说,就是lambda值越大,导致原来权重w大的现在会更加拉大差距
合理的lambda值可以使特征的权重保持在理想的范围内,即这些数据都是有效数据
L2正则化对权重较大的特征影响大
在这里插入图片描述
在这里插入图片描述
分类:
指定阈值
在这里插入图片描述
正负分类
在这里插入图片描述
计算准确率
在这里插入图片描述
在这里插入图片描述
精确率和召回率,这个类比于手写签名识别中的错误错误接受率和错误拒绝率
在这里插入图片描述
在这里插入图片描述
精确率和召回率会因为阈值设定的不同而此消彼长
在这里插入图片描述选择准确率还是选择精确率和召回率作为判断标准,因为具体案例不同而有区别:
在这里插入图片描述
在这里插入图片描述
训练模型中的案例及做法:
1、梯度消失,使用RELU
在这里插入图片描述
2、梯度爆炸,使用BatchNormalization,给予大的权重一个惩罚项,
在这里插入图片描述
在这里插入图片描述
dropout
在这里插入图片描述

嵌套embedding :协同过滤的目的

感觉embedding应该翻译为嵌入,将坐标嵌入到一维坐标轴上,或者多维空间中
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
分类输入数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
使用嵌入来解决巨型输入矢量的问题
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
就是通过矩阵乘法来降低权重个数

在这里插入图片描述
在这里插入图片描述
嵌套其实就是把多维的一个特征向量降维,一个特征映射到低维向量
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值