
机器学习
文章平均质量分 85
Daisy和她的单程车票
无需言,做自己
展开
-
特征重要性评估
1、gbdt、xgb 特征重要性源码解释:https://zhuanlan.zhihu.com/p/647591722、shap对xgboost特征重要性评估https://zhuanlan.zhihu.com/p/64799119原创 2020-07-07 09:37:11 · 1473 阅读 · 0 评论 -
分类算法评价准则
1 分类算法评价准则分类评价准则有Recall, Precision, ROC,AUC, Lift 曲线,KS曲线等。1.1 基础指标为了描绘的简单,在此给出一个实例:Table 3.1 样例图indexScoretrue labelPredict labelindexScoretrue labelPredict label10.9TT110....原创 2020-04-12 20:53:46 · 2429 阅读 · 2 评论 -
在训练的时候loss增大怎么办
引起这种问题的根本原因是Hessian矩阵的病态条件数1、对学习率乘上一个参数(0.99或者0.999)使得学习率随着学习步骤的进行而下降2、另一种办法就是采用现成的优化算法。参考链接:https://www.zhihu.com/question/60510992...原创 2020-03-26 10:58:50 · 4200 阅读 · 0 评论 -
spark xgboost & lightgbm 参数解释
一、spark xgboost 模型1 xgboost 的默认参数:xgb 参数参考链接 https://blog.youkuaiyun.com/yyy430/article/details/85179638 这个链接整理的比较全,但是这个参数是关于python版本的xgb,spark版本的xgboost默认参数和这个有出入1.1 默认参数如下: /*默认参数 eta -> 0.3 ...原创 2019-12-24 17:56:04 · 2371 阅读 · 0 评论 -
spark gbdt 自定义阈值 取出模型概率,并转换label
在大家使用spark 的时候,会发现,ML库下的模型生成的概率是一个Vector,那么如何将这个Vector的概率为1的那一列取出呢?并且自定义阈值,按照这个阈值切分得到label的0,1类呢?这时候udf函数就派上了很好的用场,废话不多说,直接上代码取出Vector 的第n列,生成新的dataframe切分Vector得到每一列的值,形如调用下面的代码生成features,对feature...原创 2019-10-12 14:20:10 · 924 阅读 · 0 评论 -
mac成功解决 AttributeError: module 'enum' has no attribute 'IntFlag'?
在mac中,当覆盖掉mac自带的python2.7后,在终端输入 python ,会出现AttributeError: module ‘enum’ has no attribute ‘IntFlag’?错误该问题解决如下:进入bash_profile vim ~/.bash_profile在该文件中找到pythonpath,把它删掉,即把图中标红处删掉然后在终端输入source ~...原创 2019-08-20 19:37:38 · 1408 阅读 · 0 评论 -
解决mac 安装lightgbm image not found问题
参考链接:https://blog.youkuaiyun.com/leowinbow/article/details/89020708原创 2019-08-20 19:26:33 · 1111 阅读 · 1 评论 -
凸函数
凸函数有一个很好的性质,即只要能证明我们求解的问题是凸函数,最终得到的解一定是全局最优解首先得注意一下: 中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的。Convex Function在中国大陆某些的数学书中,比如说我上大学那会同济版的高等数学就是指凹函数。Concave Function指凸函数。 如在讲到函数凹凸性的时候,概念是这么给出的: 设f(x)在[a,b]上连续,在(原创 2017-10-30 14:49:20 · 21269 阅读 · 5 评论 -
逻辑回归(Logistic Regression)
逻辑回归(Logistic Regression)1 极大似然估计(maximum likelihood estimation)概念: 极大似然估计是一种概率论在统计学的应用,是参数评估的方法之一。假设 已知某个样本满足满足某种概率分布,但是其中具体的参数并不清楚,参数估计通过若干次试验,观察其结果,利用结果推出参数的最大概率值。极大似然估计就是建立在这样的思想上的:已知某个参...原创 2017-11-03 10:41:39 · 1154 阅读 · 0 评论 -
Lightgbm算法
Lightgbm算法一. 发展过程—-why LightgbmCART模型往往过于简单无法有效地进行预测,因此一个更加强力的模型叫做tree ensemble。1. AdaBoost算法AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样(类似于专家打分)。 AdaBoost两个问题: (1) 如何改变训练数据的权重或概率分布 提高前一轮被弱分类器错误分类的样本的权重,原创 2017-11-04 10:14:21 · 19042 阅读 · 6 评论 -
支持向量机
支持向量机支持向量:与分离超平面距离最近的样本点的实例svm优缺点优点:泛化错误率低,计算开销不大,结果易解释 缺点:对参数调节和核函数选择敏感,原始分类器不加修改仅适用于处理二分类问题 适合数据类型:数值型和标称型数据SMO算法的工作原理:每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha,那么久增大其中一个同时减小另一个。这里所谓的”合适”就是指两个alpha必须要符合一原创 2017-11-03 21:57:38 · 329 阅读 · 0 评论 -
k近邻算法(KNN)
k近邻算法KNN定义:给定新样本求其分类y,是从离x最近的k个点的类别中选取最多的分类(投票),定义为x的分类y 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 适合数据范围:数值型和标称型通常k是个不大于20的整数,选择样本数据集中前k个最相似的数据 k值减小意味着整体模型变得复杂,容易发生过拟合代码伪码1 计算已知类别数据集中的点与当前点之间的距离 2按原创 2017-11-03 21:35:03 · 213 阅读 · 0 评论 -
PCA
PCA(principal components analysis) 主成分分析,是图像处理中通常用到的数据降维方法。是一种能够极大提升无监督特征学习速度的数据降维算法应用:对原有数据进行简化,即找出最有效的元素和结构。目标:PCA目标是使用使用另一组基去重新描绘得到的数据空间,新的基要尽可 能揭示原有数据的关系。PCA回答的是如何寻找另一组正交基,他们是标准正交的线性组合,原创 2017-06-01 11:01:09 · 4792 阅读 · 0 评论 -
SVD分解
研一的时候那会觉得svd分解,好像有点用不着,,到研三的时候才发现这玩意用处可大了,于是就总结一下,便于以后学习。如有不对的地方还望留言,请批评指正哦~ [toc]SVD分解应用领域优缺点公式推导实例分析总结原创 2017-10-29 10:20:05 · 512 阅读 · 0 评论