
机器学习
文章平均质量分 57
tiki_taka_
我要在这个世界 留一点我的足迹,证明我的存在。
展开
-
TensorFlow2.2 安装包依赖
tf2.2 依赖第三方包版本匹配,Keras、transformers、bert4keras、rasa原创 2023-06-05 09:16:51 · 1230 阅读 · 0 评论 -
PSI模型稳定计算代码
PSI2022/02/08 17:33参考资料:PSI解释:https://zhuanlan.zhihu.com/p/79682292[https://mwburke.github.io/data%20science/2018/04/29/population-stability-index.html](https://mwburke.github.io/data science/2018/04/29/population-stability-index.html)代码https://git原创 2022-02-08 17:38:30 · 1186 阅读 · 0 评论 -
category类型和数值类型 输入 神经网络
category类型和数值类型 输入 神经网络原创 2022-01-04 20:12:23 · 864 阅读 · 0 评论 -
分类 对应的 全连结层、activation、loss 的选择
全连接层 二分类 激活函数 和 loss 的选择原创 2022-01-04 19:42:22 · 1209 阅读 · 0 评论 -
AUC TP FP TN FN recall fpr 混淆矩阵
AUC TPR FPR ROC 评价指标原创 2022-01-04 19:36:09 · 1029 阅读 · 0 评论 -
XGBoost & RandomForest特征选择
XGBoost Random Forest 特征选择原创 2022-01-04 19:30:03 · 1304 阅读 · 0 评论 -
特征工程 之 特征选择
特征选择特征选择的目的减少特征数量、降维,使模型泛化能力更强,减少过拟增强对特征之间的理解去掉变化小的特征统计样本个数这应该是最简单的特征选择方法了:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以原创 2021-09-13 12:10:18 · 244 阅读 · 0 评论 -
特征工程 之 embedding层
TensorFlow中文官方网站离散和连续特征怎么喂入模型:https://tensorflow.google.cn/tutorials/structured_data/preprocessing_layersKeras 和 TensorFlow 版本 匹配信息:https://docs.floydhub.com/guides/environments/Keras Embedding 和W2V例子:https://zhuanlan.zhihu.com/p/279395289Keras 自定义Embed原创 2021-09-13 12:09:45 · 600 阅读 · 0 评论 -
特征工程之 模型 对 离散和连续的处理
无论模型是传统的ML,还是DL模型,处理的都是连续性变量(特征),在现实开发中,特征往往存在着两种状态–离散和连续。机器学习模型处理的都是连续型数据(loss,梯度更新权重,不连续则没有办法去更新权重),对于离散型遍历有以下几种处理方式:将类别无序 ——> 连续 (one-hot)将类别有序 ——> 连续 (Label Encoder),一般将类别数值型 利用 Label Encoder 进行编码,转化成连续型特征。 即是对不连续的数字或者文本进行编号类别型变量范围在范围较小时 推荐原创 2021-09-13 12:08:55 · 1127 阅读 · 0 评论 -
决策树原理
决策树 以下内容均在文档中, 文档可下载 目录 决策树 1. 绪论 2. ID3和信息增益 3. C4.5和信息增益率 4. CART 分类和回归树(Classification And Regression Tree) 4.1二叉分类树 4.2二叉回归树 5. 树剪枝处理 1. 绪论 决策树算法 特征选...原创 2019-06-03 21:38:42 · 1416 阅读 · 0 评论 -
贝叶斯模型
贝叶斯模型文档可下载,目录贝叶斯模型1.判别模型与生成模型2. 基于最小风险贝叶斯决策理论3. 高斯判别分析模型(Gaussian Discriminant Analysis)3.1 高斯判别分析(GDA)与LR的关系4. 朴素贝叶斯模型(Gaussian Discriminant Analysis)4.1 后验概率最大化的含义4.2 学习与分类算法...原创 2019-06-06 11:06:54 · 7863 阅读 · 0 评论 -
过拟合、正则化点点滴滴
过拟合、正则化点点滴滴文档可下载1. 判断方法过拟合(Over-fitting),模型在训练样本表现的过于优越,在验证集和测试集表现不佳。出现这种现象的原因是训练数据中存在噪音或者训练数据太少。过拟合问题,特征维度(或参数)过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果较差。2.产生的原因造成过拟合的原因可以归结为:参数过多 或 样本过少常见的原因:...原创 2019-05-24 23:12:04 · 293 阅读 · 0 评论