
建模
csdn_youth0605
这个作者很懒,什么都没留下…
展开
-
《统计学习方法》线性模型的读书笔记
逻辑回归:基本原理:1)正负样本为1和0:预测函数:将输入特征x乘以线性回归系数w(可以增加截距b),得到z=wTx+b。选择f(z)=1/(1+exp(z))函数作为sigmoid函数,作为预测类别为正样本的概率值h(x),负样本概率值为1-h(x),将正负样本概率值求商之后再取对数,即概率比值对数ln(h(x)/(1-h(x)))=wTx为一个线性模型。如何求解最优的w:首先要构造目标...原创 2020-03-05 08:15:27 · 410 阅读 · 0 评论 -
liblinear用于求解LR和SVM的目标函数
liblinear是一个求解线性分类器目标函数的算法包,可用于比较高效快速地求解LR和SVM大规模数据集的目标函数。具体如下:原创 2020-03-04 07:46:28 · 369 阅读 · 0 评论 -
numpy中ndarray取单行样本的小贴士
当我们切分好训练集、测试集后,如果想取单行样本放进模型中预测或者训练,需要注意ndarray的维度是否正确。有几种reshape方式:1、如果我们直接用x_test[0]的方式,取出来的numpy数组是形如(64,)这种格式,需要通过reshape(1,64)或者reshape(1,-1)(不限制列数,只限制转换后的行数)对单行数据进行reshape。2、也可以直接使用切片引用的方式,取出来的...原创 2020-03-02 07:27:20 · 672 阅读 · 0 评论 -
boosting方法学习笔记(一)
Adaboost:通过不断迭代计算不同的训练集权重分布下的基分类器和分类器的系数,最后将分类器通过线性组合的方式构成最终的分类器。迭代更新的系数通过每一轮迭代的分类误差率计算。核心思想是根据训练误差调整训练集的权重分布和基分类器的系数。GBDT(提升树):采用加法模型(基分类器的线性组合)与前向分步算法。前向分布算法即是每一步只学习一个基函数和系数,从前向后相加,逐步逼近优化目标函数,每一次拟合...原创 2019-12-29 22:12:58 · 201 阅读 · 0 评论 -
关于《统计学习方法》中回归问题的提升树算法的通俗理解
在每一轮迭代中,拟合上一轮回归函数与真实值y之间的残差,形成这一轮的回归树,并将这一轮拟合的回归树加上上一轮的回归函数形成这一轮的预测回归函数,以使这一轮的预测函数更逼近真实值y,然后不断迭代循环逼近。...原创 2019-12-23 21:16:33 · 208 阅读 · 0 评论 -
决策树算法要点梳理(摘选)
拜读了博客园的文章后将自己认为比较有用的决策树算法的知识点梳理一下作为备忘,贴上原始链接:https://www.cnblogs.com/pinard/p/6050306.html#4307680https://www.cnblogs.com/pinard/p/6053344.htmlscikit-learn中决策树使用的分类树算法是CART算法,使用基尼系数来代替信息增益比(基尼系数越小越...转载 2019-07-29 07:08:04 · 248 阅读 · 0 评论 -
集成算法原理:Adaboost
博客园有位前辈总结得很清晰有条理,借鉴一下:https://www.cnblogs.com/pinard/p/6133937.html简单把里面我自己要备忘的要点概括一下:1)基本原理:Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学...转载 2019-07-29 20:46:36 · 156 阅读 · 0 评论 -
决策树分类器sklearn.tree.DecisionTreeClassifier的使用
sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_...原创 2019-07-28 12:34:48 · 2492 阅读 · 0 评论 -
模型评估方法metrics类、模型类常用属性
1)AUC:metrics.roc_auc_score(y_true, y_score, average=’macro’, sample_weight=None, max_fpr=None))y_true:测试集样本的真实类别标签;y_score:正样本的预测概率2)ACC(准确率):accuracy_score(y_true, y_pred, normalize=True, sample_w...原创 2019-07-28 18:08:34 · 1553 阅读 · 0 评论