
机器学习
smallTutou
这个作者很懒,什么都没留下…
展开
-
DataFrame 数据集切分
DataFrame 数据集切分#方式1from sklearn.model_selection import train_test_split # split train set and test setdata_train, data_test = train_test_split(data, test_size=0.2, random_state=1234)# split validate set and test setdata_test, data_val = train_test_s原创 2021-11-08 11:19:47 · 3000 阅读 · 0 评论 -
逻辑回归与线性回归
逻辑回归与线性回归二者最本质的区别是:逻辑回归解决分类问题,而线性回归解决回归问题。但二者之间又具有联系,可从线性回归转化为逻辑回归。线性回归表达式为:y=w∗x+by=w*x+by=w∗x+b希望通过该模型做二分类任务,即目标为0,1,但并不可以用线性回归表示P(Y|X)=w*X+bP(Y|X)条件概率需满足:1)0<=P(Y|X)<=1,2)∑yP(Y∣X)=1\sum _{y}P(Y|X)=1∑yP(Y∣X)=1而 −∝<w∗x+b<∝-\propto <w*原创 2021-04-12 20:44:59 · 301 阅读 · 0 评论 -
正则化
L1损失函数L1=1N∑i=1N(yi−wTxi)2+C∣w∣1L1=\frac{1}{N}\sum_{i=1}^{N}\left ( y _{i}-w^{T}x_{i}\right )^{2}+C\left | w \right |_{1}L1=N1i=1∑N(yi−wTxi)2+C∣w∣1L1正则化可产生稀疏模型,具有选择作用经过上图观察可以看到,几乎对于很多原函数等高曲线,和某个菱形相交的时候及其容易相交在坐标轴,也就是说最终的结果,解的某些维度及其容易是0,比如上图最终解是:w原创 2021-04-09 21:09:30 · 93 阅读 · 0 评论 -
过拟合与欠拟合
##过拟合与欠拟合过拟合模型在训练集上的表现好,但是在测试集和新数据上的表现较差。降低过拟合的方法:1)获取和使用更多数据(数据增强)----根本性方法2)采用合适的模型(控制模型复杂度)a. 减少网络层数和神经元个数b. 树模型进行剪枝,降低其深度3)降低特征数量(删除冗余特征)4)正则化(L1/L2正则)5)Dropout6)采用Early stopping或知识蒸馏方式训练模型欠拟合模型在训练和预测时表现都不好。降低欠拟合的方法:1)增加特征a.原创 2021-04-08 19:36:02 · 99 阅读 · 0 评论 -
特征归一化
为什么做特征归一化?特征归一化是将所有特征统一到一个相同数值区间,通常为[0,1]。常用的特征归一化方法有:1.Min-Max Scaling对原始数据进行线性变换,使结果映射到[0,1],实现对数据的等比例缩放。...原创 2021-04-08 16:27:18 · 2395 阅读 · 0 评论