ecnu_frc_new-优快云博客

原创 SVM算法原理详解及python实现

SVM算法算法原理对数据的要求算法的优缺点算法需要注意的点算法实现（python）（待更.........）算法原理{wTx+b>0yi=1⟺y(xi)>0wTx+b<0yi=−1⟺y(xi)<0\begin{cases}w^Tx+b>0 \quad y_i=1 \Longleftrightarrow y(x_i)>0\\ w^Tx+b<0 \quad y_i=-1 \Longleftrightarrow y(x_i)<0\\ \end{cases}

2020-05-26 22:13:25 3082

原创朴素贝叶斯算法详解及python代码实现

朴素贝叶斯算法算法原理对数据的要求算法的优缺点算法需要注意的点算法实现（python）（待更.......）算法原理P(Ck∣xi)=p(xi∣ck)∗p(ck)p(xi)=p(x1∣ck)∗p(x2∣ck)....p(ck)p(x1)p(x2)....P(C_k|x_i)=\frac{p(x_i|c_k)*p(c_k)}{p(x_i)}=\frac{p(x_1|c_k)*p(x_2|c_k)....p(c_k)}{p(x_1)p(x_2)....}P(Ck∣xi)=p(xi)p(xi∣ck)

2020-05-25 23:32:40 1465 1

原创 Xgboost算法原理详解及python实现

Xgboost算法（回归树）1、算法原理2、对数据的要求（无需规范化）3、算法的优缺点4、XGB、GBDT、LR与RF5、python代码实现(待更......)导入相关包读取数据并预处理(必须处理缺失值)训练评估1、算法原理步骤（booststrap sampling）：目标函数：obj(t)=∑i=1nL(yi,y^i(t−1)+ftxi)+Ωf(t)+Cobj^{(t)}=\sum_{i=1}^nL(y_i,\widehat y_i^{(t-1)}+f_t^{x_i})+\Omega f(t)+

2020-05-25 23:29:18 2350 1

原创 KNN算法原理详解及python代码实现

KNN算法算法原理对数据的要求算法的优缺点算法需要注意的点算法实现（python）算法原理计算待测样本与train_data的距离d并保存数组中对d进行排序，取d最近的k个样本统计样本的类别或值（k个），取其类别最多的类别（或平均值）对数据的要求对于缺失值需要处理（填充或者删除）分类变量需要编码（涉及距离计算）数据需要标准化或者归一化处理（消除量纲的影响。涉及距离计算的算法都需要考虑）算法的优缺点一、优点1.准确度高，对异常值与噪声有较高的容忍度2. 没有模型，无需参数估计

2020-05-25 23:23:10 2218 1

原创随机森林原理详解及python代码实现

随机森林（RF）算法1、算法原理2、对数据的要求（无需规范化）3、算法的优缺点4、算法需要注意的点5、python代码实现(待更......)导入相关包读取数据并预处理(必须处理缺失值)训练评估1、算法原理步骤（booststrap sampling）：1、从数据集中有放回的随机抽m个样本2、从样本中选取n个特征进行建树3、重复1-22、对数据的要求（无需规范化）与cart类似 https://blog.youkuaiyun.com/weixin_41851055/article/details/1062

2020-05-21 23:25:32 2156

原创 GBDT（回归树）原理详解与python代码实现

GBDT算法1、算法原理2、对数据的要求3、算法的优缺点4、算法需要注意的点5、python代码实现(待更......)导入相关包读取数据并预处理训练及评估1、算法原理步骤：1、初始f0(x)f_0(x)f0(x):编号真实值f0(x)f_0(x)f0(x)残差01.11.475-0.37511.31.475-0.17521.71.475-0.22531.81.475-0.3252、以残差作为样本真实值训练f1(x)f_1(

2020-05-21 23:24:52 5313 5

原创决策树原理详解及python代码实现

决策树算法（信贷中常用来寻找规则）1、算法原理1.1 ID3（多叉树分类）1.2 C4.5（多叉树分类）1.3 Cart（二叉树分类+回归）2、ID3、C4.5与Cart比较3、算法优缺点4、算法需要注意的点5、python代码实现5.1导入相关包5.2 读取数据并数据处理5.3 模型训练5.4 评估指标5.4 决策树以图的形式输出1、算法原理1.1 ID3（多叉树分类）信息熵：Ent(D)=−∑i=1npilogpiEnt(D)=-\sum_{i=1}^np_ilogp_iEnt(D)=−∑i=1n

2020-05-20 19:23:59 2170 2

原创机器学习算法—集成算法原理详解

集成算法1、集成算法之Boosting（GBDT、XGB、LGB）2、集成算法之Bagging（RF）3、集成算法之Stacking（速度慢）1、集成算法之Boosting（GBDT、XGB、LGB）1、重赋权（错误标记样本赋予较高的权重）（过早停止导致基学习器少）2、重采样注：关注降低偏差，避免欠拟合。个体学习器之间存在强依赖关系2、集成算法之Bagging（RF）booststrap sampling：1、从数据集中有放回的随机抽m个样本（36.8%抽不中）2、从样本中随机抽n个特征进行

2020-05-20 19:23:34 357

原创机器学习算法的基础知识

机器学习算法的基础知识1、评估指标2、偏差与方差（过拟合与欠拟合）3、正则化（解决过拟合）4、梯度下降算法（算法优化方式）5、数据不平衡1、评估指标预测值 0 1 实际 0 TN FP 1 FN TP accuracy=TN+TPTN+TP+FP+FNaccuracy = \frac{TN+TP}{TN+TP+FP+FN}a

2020-05-20 19:20:27 294

原创信用评分卡—信贷准入A卡（逻辑回归）

信贷评分卡逻辑回归原理求解方式逻辑回归为什么用sigmoid并且转化后的输出即为1的概率总结逻辑回归原理求解方式预测函数(线性回归模型上加了sigmoid函数)：hθ(x)=11+e−θx其中θx=θ0+θ1x1+θ2x2+...+θnxnh_\theta(x)=\frac{1}{1+e^{-\theta x}} \qquad 其中\theta x=\theta _0+\theta _1x_1+\theta _2x_2+...+\theta _nx_nhθ(x)=1+e−θx1其中θx=θ0

2020-05-19 19:32:08 2242

原创算法建模流程详解及python代码实现

算法建模前言建模的一般流程代码实现（以逻辑回归为例，重在解释流程）导入相关模块数据清洗及降维woe编码（好处不需要填充缺失值不需要数据标准化）检验多重共线性（在这步之后决定样本不平衡怎么处理）模型训练（观察没通过假设性检验的变量）评估指标（以AUC和KS为例）保存模型读取模型并在样本上打分前言每个算法工程师都有自己建模的习惯，因此在建模流程上会有所不同。本文主要介绍了一般的建模流程，有些步骤的先后顺序可能会有所差异，具体还需结合自己的实际相结合。建模的一般流程1.明确需求，确定y：这是建模第一步需

2020-05-18 17:34:57 5088 1

原创机器学习模型的解释-SHAP

数据监控SHAP值SHAP值SHAP值基于Shapley值，Shapley值是博弈论中的一个概念。SHAP所做的是量化每个特征对模型所做预测的贡献。对于所有的特征上图可以自由组合共有2^3=8种可能（数学中称为power set即幂集）。SHAP需要为幂集中的每个不同的组合训练一个不同的预测模型，这意味着有8个模型。当然，这些模型在涉及到它们的超参数和训练数据时是完全等价的。唯一改变的是模型中包含的一组特征。假设上图是已经用相同训练样本训练了8个线性回归的模型。我们可以用这8个模型分别对一个测试样

2020-05-18 15:01:59 13324 7

原创信贷风控之数据监控与分析

数据监控前言如何做数据监控算法的优缺点算法需要注意的点算法实现（python）前言无论是数据分析还是数据建模分析的工作属于前期工作，后期的维护还需要严格监控来维持。日常的监控数据会让我们更加了解公司的业务、流程以及整个产品的概况。如何做数据监控数据监控的指标一般思路是产品的流程及与Kpi相关的核心指标。遵循的基本原则基本上是先总体再个体，顺着产品流程线。开始乙方项目负责人方案及工作量估算材料甲方项目负责人初审Bid结束算法的优缺点一、优点原理简单，容易实现对于大数据集，可保持伸缩性与高效

2020-05-15 16:28:46 2517

原创 K-means算法详解及python代码实现

KNN算法算法原理对数据的要求算法的优缺点功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入算法原理随机选取k个点作为初始聚类中心计算各个数据点到初始聚类中心的距离，比较其距离将每个数据点归类到最近的聚类中心样本全部划分后重

2020-05-14 14:39:14 1262

weixin_41851055的博客