自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

菜鸟笔迹

菜鸟笔记

  • 博客(14)
  • 收藏
  • 关注

原创 支持GPU的Tensorflow环境安装

python安装3.6 , 3.7 , 3.8。2.验证是否为GPU版本的TensorFlow。3.设置TensorFlow使用GPU。4.查看TF中GPU是否可被使用。

2024-12-13 10:49:51 158

原创 【机器学习】模型评估指标AUC与KS差异

不同点:AUC反映了模型区分度平均状况,KS反映了模型区分度最佳状况。相同点:都从ROC曲线来的,都体现了对好坏用户的区分能力。

2024-12-12 19:50:18 192

原创 【机器学习】WOE的作用

使得连续性变量能够单调,线性(lr模型只能处理线性数据)对缺失值跟类别型变量进行数值的转化后,得以入模。使得模型鲁棒性强,可解释性强。

2024-12-12 17:55:33 174

原创 【机器学习】模型评估与选择

查准率与查全率是矛盾的度量,如果重视查准率可以选择靠前的阈值,如果重视查全率可以选择靠后的阈值。也可以通过平衡点BEP来度量,即查准率等于查全率时的取值。AUC:分配器将正样本判断为正比将负样本判断为正的概率大的可能性。特点 不依赖类别的具体分布,不会随着类别分布的改变发生变化。特点 依赖类别的具体分布,会随着类别分布的改变发生变化。查全率(TPR、Recall)R TP/实际为正。ROC曲线 横轴为FPR,纵轴为TPR。查准率 P TP/预测为正。P-R曲线横轴为R,纵轴为P。

2024-12-08 13:49:07 246

原创 【模型部署】LGB Model 文件转PMML

lightgbm-executable-1.2.14.jar 为转pmml文件的jar包。

2024-11-26 15:00:55 125

原创 【模型部署】PMML文件打分

【代码】PMML文件打分。

2024-11-26 14:52:08 123

原创 【模型部署】LGB--MODEL与PMML打分不一致问题

pmml之所以不能识别训练时的字符型变量是因为,字符型变量被转为category类型入模,pmml中这类字符型变量会从原来的文本转为数值。模型训练时将字符型变量转为 category 格式入模,数据以训练格式入参通过model与pmml打分不一致。model文件跟pmml文件对训练中未出现过的缺失值打分方式不一样,导致的不一致。查看pmml文件发现,pmml对字符型变量的处理是,遇到不能识别的值当成空值打分。尝试将字符型变量置空后model打分与变量未置空的pmml打分一致。

2024-11-25 17:27:22 280

原创 Word2Vec

不同softmax的是,每个词word对应的是一个V大小的one-hot label,hierarchical softmax中每个叶子节点word,对应的label是赫夫曼编码,一般长度不超过 l o g 2 V ,,在训练的时候,每个叶子节点的label统一编码到一个固定的长度,不足的可以进行pad。DNN模型最大的问题在于从隐藏层到输出的softmax层的计算量很大,因为要计算所有词的softmax概率,再去找概率最大的值。因为每个词对应的向量只有一个,训练完成就固定不变了,是静态变量。

2024-11-18 17:11:31 2007

原创 GBDT、XGB、LGB优缺点

GBDT、XGB、LGB相同与不同

2024-11-17 12:19:49 677

原创 IV与PSI的理解--深入浅出

在第二part ,WOE计算中,我故意没有像其他博主一样写的很细节 ,以便让我们注意到,PSI 和IV的计算公式是一样的。工业上,一般IV超过0.05可以通过初筛,根据变量iv实际情况可以灵活设置阈值,像风险模型变量效果不是很如意,iv也可设置为0.001的阈值。KL散度通常被称作KL距离,根据公式可以看出,KL散度满足距离的非负性和同一性,不满足对称性和直递性,因此不是严格意义上的“距离"。IV衡量的是某一个变量的信息量,是基于WOE来计算的,也可以说是基于KL散度的计算。2)基于KL散度的理解。

2021-09-04 20:33:33 2573 1

原创 风险建模岗位面试被问过的问题

https://www.zhihu.com/question/24964987/answer/5227333191.为什么正则可以提高模型的泛化能力,L1,L2正则化的区别;2.随机森林参数详解,参数的重要性排序https://blog.youkuaiyun.com/u012559520/article/details/773360983.随机森林树的个数是否越多越好https://www.jian...

2020-04-09 15:49:38 498

原创 pycharm 连接远程服务器以及使用

pycharm 连接远程服务器1.pycharm中打开 tools->deployment->configuration…2.填写下图信息3.填写mappings信息4.add一个远程python解释器经过以上步骤,远程解释器就配置好了使用1.上传文件到服务器一般解释器配置好后,本地项目会自动上传到服务器上,当上传完成就可以通过使用服务器环境在本地运行程序了...

2020-03-22 13:46:59 1794

原创 apriori以及其改进算法

apriori算法概率基础支持度:item出现的频次support(XY) = count(XY)/count(all samples)置信度:条件概率,XY同时出现的概率在Y中的占比Confidence(X⇐Y)=P(X|Y)=P(XY)/P(Y)提升度:Y的条件下X出现的概率 与没有任何条件下X独立存在的 对比Lift(X⇐Y)=P(X|Y)/P(X)=Confi...

2020-03-19 02:00:05 3919 1

原创 pip 常用命令

安装python包常用命令1.创建虚拟环境conda create your_env_name python=3.6.82.使用清华镜像安装包pip install xxx -i https://pypi.tuna.tsinghua.edu.cn/simple3.安装固定版本的包pip install xxx==2.8.04.升级包到固定版本pip install --upgrad...

2020-03-14 22:19:45 333

LGB Model 文件转PMML

LGB Model 文件转PMML

2024-11-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除