AiirrrrYee-优快云博客

原创 Linear SVM v.s. LR

对数据分布的依赖 Linear SVM：不依赖，只考虑margin附近的数据LR：受所有数据的影响 Loss Function Linear SVM：maximum marginLR：log loss Focus Linear SVM：最大化margin，关注support vector，其他点不重要LR：最大化probability，离分离超平面越远越好

2018-01-25 10:59:24 381

原创从LR开始

理解LR：1、函数映射：对数线性模型，将线性wx映射到sigmoid中转为概率，input和output仍是线性关系。 2、对数几率：输出Y＝1的对数几率是输入x的线性函数，log(p/(1-p))＝wx。 3、概率角度：第i个样本预测正确的概率P(y|x; theta)=(h(x)^y)(1-h(x)^(1-y)

2018-01-08 10:47:43 421

原创 XGB v.s. LGB

分裂 XGB：Level-wise，一次分裂同一层的叶子，但很多叶子分裂增益低、有不必要的搜索和分裂 LGB：Leaf-wise with 深度限制，从所有叶子中找增益最大的叶子分裂决策树算法 XGB：exact决策树 LGB：Histogram 加速 XGB：无 LGB：直方图做差（父－兄弟） categorical feature XGB：需要one hot / dummy LGB：支持直方

2017-11-28 14:52:34 6318

原创 LightGBM中的一些tips

改进直方图算法（Histogram）根据直方图中的离散值，遍历寻找最优分割点：把连续的浮点特征离散 -> k个整数 -> 宽为k的直方图遍历，离散化的值作为索引，在直方图中累积统计量加速叶子＝父－兄弟（直方图做差） Leaf-wise带深度限制的叶子生长策略支持categorical feature 并行 feature parallel：每个worker中有所有fea

2017-11-24 14:06:09 1226

原创 Bagging v.s. Boosting

取样 Bagging：均匀取样，随机，各轮之间独立 Boosting：根据错误率预测函数权重 Bagging：无 Boosting：有预测函数生成顺序 Bagging：并行 Boosting：串行

2017-11-13 17:32:26 500

原创 Random Forest v.s. Bagging

采样方式（单次） - RF：有列采样（从d个feature中抽k个构成特征子集，再选择一个最优特征用于划分）；行采样方式相同（有放回的采样，数据集包含m个样本则有放回的采m个样本，有重复和未出现的样本） - Bagging：无列采样；行采样方式相同特征选择方式： - RF：选取部分特征（列采样），随机型Decision Tree，只考察一特征子集 - Bagging：选取全部特征，确

2017-11-09 09:27:41 528

原创 CatBoost: 自动处理CAT数据的GBDT

CatBoost = Category + Boosting 2017年7月21日，俄罗斯Yandex开源CatBoost，亮点是在模型中可直接使用Categorical特征并减少了tuning的参数。建树的过程初步计算splits 对每个数值特征二值化，选择可能的分桶方式，结果用于选择树结构。binarization method (feature_border_type) 和number

2017-10-16 11:17:13 9602 1

原创 CatBoost参数解释

CatBoost参数简单中文解释。

2017-10-13 11:38:22 12598

原创 Gamma函数 & Beta分布 & Dirichlet分布 & Symmetric Dirichlet

Gamma函数实质：阶乘在实数域上的推广即，使用分部积分，可得 Beta分布概率密度函数其中， (Gamma函数) 期望为 Dirichlet分布Beta分布从2到K的推广概率密度函数其中，简记为期望为分析：是参数向量，共K个定义在K－1维上Symmetric Dirichlet 在没有先验时，K维未知退化为2维：K，其中，

2017-05-09 09:38:11 874

原创提升Boost：GBDT & Xgboost & Adaboost

提升：将弱分类器进行提升，形成强分类器。两种基本思想： 1、梯度提升（Gradient Boosting, GB）在每一步生成弱分类器后，依据损失函数的梯度方向，迭代选择负梯度方向上的基函数，逼近局部极小值。 ->GBDT & Xgboost 2、样本加权考虑提高分类错误样本的权值，即每次更关心做错了的部分，从而提高分类器的能力。

2017-04-17 10:49:08 1014

原创 Ridge & LASSO & Elastic Net

总结来说，Ridge、LASSO、Elastic Net是线性回归的三种方法，添加了不同惩罚因子的损失函数J(θ)。首先简单介绍线性回归的相关概念。损失函数（目标函数）：为了防止过拟合（θ过大），在目标函数J(θ)后添加复杂度惩罚因子，也就是正则项。正则项可以使用l1-norm、l2-norm，或结合l1-norm、l2-norm。这就分别对应Ridge（岭

2017-04-07 15:47:55 4722

AiirrrrYee的博客