
机器学习
Tuzi_bo
天下没有学不会的技术,只有想不想学的心。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习基础】样本类别不平衡的解决办法
目录一 数据不平衡现象以及分析二 解决措施1.采样(1)随机下采样(Random undersampling of majority class)(2)随机过采样(3)Edited Nearest Neighbor算法(4)Repeated Edited Nearest Neighbor算法(5)EasyEnsemble算法 (6)BalanceCascade算法(7)NearMiss算法(8)Tomek Link算法2.数据合成(1)SM...原创 2020-05-14 00:12:45 · 6551 阅读 · 0 评论 -
【sklearn】XGBoost应用
本文给个简单的例子,来看看sklearn是怎么用xgboost的。1.先加载数据,这里用pandas,假设数据文件的最后一列是样本的标签。from xgboost import XGBClassifierimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metric...原创 2019-06-28 08:39:48 · 3476 阅读 · 0 评论 -
【机器学习基础】XGBoost公式推导
XGBoost是Boosting算法的一种,Boosting算法的核心思想就是将许多基模型加在一起,形成一个强分类器。XGBoost就是将许多的CART树结合在一起,对于那些一颗树无法很好拟合的数据用多颗CART树不断地去逼近。本文从Boosting方法-->BDT(提升树)-->GBDT(梯度提升树)-->XGBoost的脉络来描述XGBoost.一 BoostingB...原创 2019-06-28 09:21:05 · 1126 阅读 · 0 评论 -
【机器学习基础】性能度量与评估方法
目录一 性能度量1.1 留出法1.2 k折交叉验证二 评估方法2.1 精确率(查准率),召回率(查全率)和F1值2.2 ROC曲线2.3 PR曲线2.4 使用场景三 参考材料在学习器将模型构造出来之后,我们通常需要进行评估该模型的好坏,因此本文介绍几种评估的方法,在这之前先明确几个定义:1.训练误差:模型在训练集上的误差,假设模型为,N为训练样本数量,则...原创 2019-06-18 00:33:24 · 1000 阅读 · 0 评论 -
【机器学习基础】EM算法
目录一 样例 二 公式描述三 参考文献 最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。 最大期望算法经过两个步骤交替进行计算: 第一步是计算期望(E),...原创 2019-06-04 14:24:39 · 120843 阅读 · 23 评论 -
【机器学习基础】特征归一化之max-min和Z-score
在特征处理的时候,经常会遇到两个特征之间不再同一个量级的情况,这个时候如果采用线性运算的话,就很容易导致不平衡,所以就有在数据处理阶段对特征进行归一化的操作,常用的归一化操作有max-min和z-score。一 max-minmax-min是对数据做了一次线性变换,将X值映射到了[0,1]之间。一般是在特征数据较为零散或者是线性关系,并且没有很多离群值的时候,可以采用这种方法进行归一化,公...原创 2019-06-19 19:37:46 · 5675 阅读 · 1 评论 -
【机器学习基础】IV和WOE值
目录一 WOE1.1 概念1.2 样例二 IV2.1 概念2.2 样例三 参考材料IV和WOE通常是用在对模型的特征筛选,在模型刚建立时,选择的变量往往比较多,这个时候就需要有一种方法来帮助我们衡量什么变量应该进入模型什么变量应该舍弃,IV和WOE就可以帮助我们进行衡量。对于一个变量来说,我们考虑该变量是否可以加入预测一般可以考虑以下五个因素:(1)变量的预测能力(...原创 2019-06-19 19:15:07 · 8470 阅读 · 1 评论 -
【机器学习基础】HMM隐马尔可夫模型
目录一 马尔可夫链二 隐马尔可夫模型2.1两个很重要的假设 2.2三类问题三 参考文献 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析,例如模式识别。 HMM模型解决的问题...原创 2019-06-02 00:27:31 · 1887 阅读 · 0 评论 -
【sklearn】Learning-curve判断模型状态
在训练模型时,经常我们是需要判断训练出来的模型是否是过拟合或者欠拟合的,这个时候就需要借助Learning curve来帮助我们进行判断,Learning curve描述的是在不同样本的情况下,训练集和验证集的准确率的变化曲线,我们通过判断两条曲线的间隔就可以看出模型的大致状态。 上面这个图在很多博客中都有,这三个图表示着三种情况:欠拟合、过拟合和理想情况。对应这三张图的解释...原创 2019-05-09 18:28:02 · 1633 阅读 · 0 评论 -
【sklearn】使用GridSearchCV查找最优参数
GridSearchCV是用来查找最优参数的常用方法,只需要把参数的候选集输入进去,就会自动的帮你进行排列组合,然后选出得分最高的那一组参数的排列。 该函数的原型:class GridSearchCV(BaseSearchCV): def __init__(self, estimator, param_grid, scoring=None, fit_params=...原创 2019-05-06 22:16:54 · 6247 阅读 · 0 评论 -
【机器学习基础】信息熵,联合熵,条件熵,互信息,相对熵,交叉熵
目录1 信息2 信息熵 3 条件熵、互信息 3.1 条件熵 3.2 互信息 3.3 熵之间的关系推导与证明4 相对熵 5 交叉熵6 参考链接 在机器学习中,信息熵(Entropy)是一个非常重要的概念,因为围绕着熵有着许许多多的应用和算法。信息熵的概念是由香农在1948年提出的,熵这个概念最初源于热力学,热力学中...原创 2019-04-25 10:57:08 · 7097 阅读 · 1 评论 -
【机器学习基础】Apriori算法
目录1 关联规则简介2 相关定义3 Apriori简介4 Apriori代码功能详解(Python3)4.1构造数据集4.2生成第一层候选集4.3计算给定候选集的支持度4.4候选集生成函数4.5生成频繁项集的主函数4.6生成关联规则5 参考材料1 关联规则简介关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中的不同商品之间的关联...原创 2019-04-26 10:01:57 · 606 阅读 · 0 评论 -
【机器学习基础】决策树
目录1 决策树简介2 ID3算法构造决策树 2.1 特征选择3 C4.5算法实现决策树4 树的剪枝5 树的存储1 决策树简介 决策树(Decision Tree)是一种基本的分类与回归方法,本文主要讨论分类的决策树,回归的决策树在回归树那一个帖子中讨论。树的结构想必都很熟悉,有根节点、内部节点、叶子节点组成,最常见的二叉树就是每个节点最多只有两个孩子...原创 2019-04-17 09:10:27 · 327 阅读 · 0 评论 -
【机器学习基础】线性回归
线性回归 1.线性回归简介 线性回归(Linear Regression)是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。这句话对线性回归的解释是出自百度百科,简单一点...原创 2019-04-13 18:48:41 · 748 阅读 · 0 评论 -
【机器学习基础】朴素贝叶斯进行垃圾邮件分类
目录 一 朴素贝叶斯简介 二 贝叶斯决策理论 三 朴素贝叶斯进行垃圾邮件分类 3.1构造数据集 3.2 构造词典 3.3 构造词集模型 3.4 求解先验概率和条件概率 3.5 对样本集进行分类 3.6 交叉验证 四 整体代码实现 五 参考材料 一 朴素贝叶斯简介 贝叶斯...原创 2019-04-16 17:44:16 · 1906 阅读 · 0 评论