- 博客(10)
- 资源 (10)
- 收藏
- 关注
原创 模型、数据分布稳定性
模型稳定性:群体稳定性指标(population stability index)公式: psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))举个例子解释下,比如训练一个logistic回归模型,预测时候会有个类概率输出,p。在你的测试数据集上的输出设定为p1,将它从小到大排序后将数据集10等分(每组样本数一直,此为等宽分组),计算每等分组的最大最小预测的类概率值
2018-01-12 14:20:39
12312
原创 测试TF下的GPU性能
from __future__ import print_function'''Basic Multi GPU computation example using TensorFlow library.Author: Aymeric DamienProject: https://github.com/aymericdamien/TensorFlow-Examples/'''
2018-01-11 16:42:04
1749
转载 正则化方法:L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。为了防止overfitt
2017-07-20 15:05:54
431
转载 数据不平衡处理方法
在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路:1、重新采样训练集可以
2017-06-24 19:16:02
5881
转载 从gbdt到xgboost
gbdt(又称Gradient BoostedDecision Tree/Grdient Boosted Regression Tree),是一种迭代的决策树算法,该算法由多个决策树组成。它最早见于yahoo,后被广泛应用在搜索排序、点击率预估上。 xgboost是陈天奇大牛新开发的Boosting库。它是一个大规模、分布式的通用Gradient Boosting(GBDT)库,它在
2017-02-28 16:26:32
424
原创 拓扑空间、距离空间、向量空间和内积空间
拓扑空间是最基本的,是集合+开集构成,这个空间里没有距离。就像人群+关系=社会一样。距离空间=拓扑空间+距离。这个距离的来源主要是定义出来的。距离空间是拓扑空间的一个子集,也可以理解为是一个子概念。同理向量空间又是距离空间的一个子集,子概念。对拓扑向量空间来说,它是一个度量空间当且仅当其有可数局部拓扑基(见Rudin的泛函分析,对一般拓扑空间来说的充要条件还要多一个,这就是NS度量化定理,见Munk
2016-11-24 18:05:57
7985
原创 精确率(Precision)、召回率(Recall)、F1-score、ROC、AUC
1. 基本概念 FN TP TN FPTP —— True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率 TN —— True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率 FP ——False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率 FN—— Fa
2016-11-22 17:52:30
7029
转载 MapReduce工作原理图文详解
转载:http://dataunion.org/22608.html 1.MapReduce作业运行流程流程示意图: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。
2016-11-18 16:01:33
492
code_document.zip
2020-11-12
深度学习算法
2018-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人