
机器学习
达瓦里氏吨吨吨
待万事以俱诚。
展开
-
【转】Python sklearn机器学习各种评价指标——Sklearn.metrics简介及应用示例
博客链接import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import ensemblefrom sklearn import metrics#################################################################...转载 2019-08-12 12:47:28 · 1895 阅读 · 0 评论 -
分类问题的指标权衡(Accuracy、Precision、Recall、F、F1、PR、ROC、AUC)
参考文献1.利用基于线性假设的线性分类器LogisticRegression/SGDClassifier进行二类分类(复习1)2.机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线3.宏观视角一、关于精度(Precision)、召回率(Recall)混淆矩阵:二、各指标介绍:具体请参考该博客1、准确率(Acc...原创 2019-05-27 23:48:18 · 2796 阅读 · 1 评论 -
机器学习项目开发流程模式整理
参考文献Step1.数据导入阶段001.import 相关模块包(常见的有numpy、pandas、matplotlib、sklearn、os等)002.设定数据集所在path路径,字符串形式,便于后续读写时使用003.自建解压缩或者初步的自动处理函数,便于实现数据的自动化预处理Step2.数据初步探索阶段1.数据集宏观初探001.head()方法:查看数据...原创 2019-05-27 18:13:43 · 701 阅读 · 0 评论 -
关于正负样本不平衡问题的解决方法收集整理
参考文献1.如何解决机器学习中数据不平衡问题2.Learning from imbalanced data 原文3.对于正负样本不均衡的解决方法4.2中论文的翻译总结一、 问题背分析1.背景在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”...原创 2019-05-26 13:01:22 · 12893 阅读 · 0 评论 -
【百面】损失函数和优化算法笔记
参考文献1.《百面机器学习》2.3.机器学习算法=模型表征+模型评估+优化算法【1】模型表征:各种机器学习模型【2】模型评估:各种损失函数;【3】优化算法:各种优化算法;优化算法所做的事情就是在模型表征空间中找到模型评估指标最好的模型。问题背景(矛盾):传统优化理论:基于全量数据、凸优化;实际场景:大规模、高度非凸的优化问题;一.损失函数(7个)1.1针对二分类问...原创 2019-05-21 23:00:49 · 1403 阅读 · 0 评论 -
概率图模型学习笔记
参考文献1.概率图模型2.概率图模型学习笔记:HMM、MEMM、CRF3.Hulu – 《百面机器学习》4.李航 – 《统计学习方法》5.周志华 --《机器学习》6.知乎博客7.8.概率图模型(PGM),简称图模型(GM),是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型。常见图模型结构对于一个K维随机向量来说,它的联合概率为高维空间中的分布,一般难以直接建...原创 2019-05-24 16:08:22 · 1896 阅读 · 0 评论 -
采样
参考文献1.《百面机器学习》2.《》3.Python中的两种随机数机制4.5.原创 2019-05-24 15:49:13 · 5659 阅读 · 0 评论 -
【转】机器学习距离计算公式总结
参考文献1.机器学习距离公式总结2.距离计算公式总结(衡量相似度方面)转载 2019-05-20 23:16:35 · 426 阅读 · 0 评论 -
隐马尔科夫模型(HMM)学习笔记
参考文献1.李航《统计学习方法》2.刘建平老师的博客内容1.HMM模型的应用场景首先我们来看看什么样的问题解决可以用HMM模型。使用HMM模型时我们的问题一般有这两个特征:1)我们的问题是基于序列的,比如时间序列,或者状态序列。2)我们的问题中有两类数据,一类序列数据是可以观测到的,即观测序列;而另一类数据是不能观察到的,即隐藏状态序列,简称状态序列。2.HMM模型的基本定义强...原创 2019-05-20 23:05:39 · 783 阅读 · 0 评论 -
Jdata2019比赛小结
占个坑,回来再填。原创 2019-05-20 16:27:08 · 967 阅读 · 0 评论 -
无监督学习:自组织映射网络(SOM)原理
参考文献:1.系统学习机器学习之神经网络(四) --SOM待完善整理原创 2019-05-09 14:19:15 · 3744 阅读 · 1 评论 -
L1正则和L2正则的比较分析
参考文献1.L1正则和L2正则的比较分析详解2.比较全面的L1和L2正则化的解释3.正则化项L1和L2的区别4.L1 相比于 L2 为什么容易获得稀疏解?概括:L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。一、概念的介绍1.L1-norm(L1范数)X的 L1-norm 的定义为:这个范数在范数家族中相当常见,它有很多名字和...原创 2019-05-28 23:31:33 · 16135 阅读 · 1 评论 -
随机森林学习整理
参考文献1.python机器学习——随机森林算法(Random Forest)2.机器学习算法之随机森林算法详解及工作原理图解3.随机森林4.RandomForest:随机森林5.随机森林(Random Forest)算法原理基调:侧重理清集成学习思想;以及偏差方差权衡的这里的体现;整体把握:集成学习(ensemble)思想是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整...原创 2019-06-01 00:36:39 · 2716 阅读 · 0 评论 -
交叉熵与KL散度
参考文献1.对数损失函数(Logarithmic Loss Function)的原理和 Python 实现2.交叉熵与KL散度3.深度学习剖根问底:交叉熵和KL散度的区别4.详解机器学习中的熵、条件熵、相对熵和交叉熵5.为什么交叉熵(cross-entropy)可以用于计算代价?6.机器学习中的基本问题——log损失与交叉熵的等价性核心:KL散度=交叉熵-熵对于给定训练集,熵是已...原创 2019-05-29 14:56:28 · 6758 阅读 · 1 评论 -
【转】线性判别分析LDA系统化推导
博客地址原创 2019-08-04 20:29:43 · 167 阅读 · 0 评论 -
【转】牛顿法与拟牛顿法学习
1.牛顿法2.拟牛顿法3.BFGS算法4.L-BFGS算法原创 2019-08-04 14:55:37 · 142 阅读 · 0 评论 -
GBDT理解2.0
参考文献1.GBDT原理与Sklearn源码分析-回归篇2.GBDT原理与Sklearn源码分析-分类篇3.GBDT原理与实践-多分类篇前提:CART可以用于回归和分类,那么到底用回归还是分类呢?我们知道,GBDT拟合的目标是一个梯度值,这个值当然是一个连续值或者说实值,所以在GBDT里,通通都是回归树!!!如果损失函数选的是最小平方损失函数,那么拟合残差就和拟合损失函数的负梯度是等...原创 2019-07-26 14:34:36 · 216 阅读 · 0 评论 -
【三部曲03】从XGBoost到LightGBM
参考文献引用来源:1.lightgbm论文翻译2.lightgbm论文翻译解读3.LightGBM——提升机器算法(图解+理论+安装方法+python代码)4.论文原文下载Question1. LightGBM提出的原因或者说背景是什么?概括:面对稀疏、大数据场景,计算方式过于耗时我们知道在LightGBM出现之前,已经有了例如 XGBoost 这样的优化很细致的工程实现。但是尽管...原创 2019-06-27 15:31:26 · 605 阅读 · 0 评论 -
【转载】GBDT示例
1.GBDT实例介绍2.GBDT一个例子3.GBDT几问转载 2019-07-02 17:35:05 · 937 阅读 · 0 评论 -
【转载】训练集(train)、验证集(validation)和测试集(test)
转载文献地址1转载文献地址2在有监督的机器学习中,经常会说到训练集(train)、验证集(validation)和测试集(test),这三个集合的区分可能会让人糊涂,特别是,有些读者搞不清楚验证集和测试集有什么区别。划分如果我们自己已经有了一个大的标注数据集,想要完成一个有监督模型的测试,那么通常使用均匀随机抽样的方式,将数据集划分为训练集、验证集、测试集,这三个集合不能有交集,常见的比例...转载 2019-07-08 15:07:47 · 868 阅读 · 0 评论 -
关于VC维
博客地址转载 2019-06-17 17:14:14 · 249 阅读 · 0 评论 -
关于Logistic和softmax的原理和关系整理
参考文献1.Logistic回归原理及公式推导2.Softmax算法:逻辑回归的扩展3.牛顿法与拟牛顿法,DFP法,BFGS法,L-BFGS法4.SGDClassifier和LR,SVM的区别一、原理这个直接参考上面的博客1和博客2,写的很详细,参考价值很高;二、Logistic回归和Softmax的关系一句话总结:Softmax是Logictic回归的扩展(从二分类推广到多分...原创 2019-06-02 22:56:18 · 998 阅读 · 0 评论 -
对SVM中核函数的理解
参考文献1.核函数(kernekl)最通俗易懂的理解2.核函数的理解一3.关于核函数的一些思考4.形象透彻理解核函数5.机器学习之核函数一、核函数定义设X是输入空间(欧氏空间或离散集合),Η为特征空间(希尔伯特空间),如果存在一个从X到Η的映射φ(x): X→Η使得对所有的x,y∈X,函数Κ(x,y)=φ(x)∙φ(y),则称Κ(x,y)为核函数,φ(x)为映射函数,φ(x)...原创 2019-05-29 22:35:02 · 5071 阅读 · 0 评论 -
【转】面试问题收集
1.面试用算法复杂度总结2.动态规划总结3.最小二乘、最大似然和最大后验的简单总结4.面试笔试整理3:深度学习机器学习面试问题准备(必会)5.面试笔试整理4:机器学习面试问题准备(进阶)6.面试笔试整理5:项目问题准备7.BAT机器学习面试1000题系列8.机器学习之从极大似然估计到最大熵原理以及EM算法详解...转载 2019-06-13 11:44:54 · 165 阅读 · 0 评论 -
K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比
原文地址转载 2019-04-24 13:52:45 · 1096 阅读 · 0 评论 -
【西瓜书笔记03】EM算法与混合高斯模型
参考资料:EM算法与混合高斯模型原创 2019-04-03 23:39:40 · 1028 阅读 · 0 评论 -
【西瓜书笔记02】标准梯度下降和随机梯度下降
参考资料:1.标准梯度下降法和随机梯度下降法的区别2.梯度下降与随机梯度下降主要区别概括1.标准下降时在权值更新前汇总所有样例得到的标准梯度,随机下降则是通过考察每次训练实例来更新。2.对于步长 η的取值,标准梯度下降的η比随机梯度下降的大。因为标准梯度下降的是使用准确的梯度,理直气壮地走,随机梯度下降使用的是近似的梯度,就得小心翼翼地走,怕一不小心误入歧途南辕北辙了。3.当E(w)有...原创 2019-04-03 22:08:04 · 1813 阅读 · 0 评论 -
【处理流程01】特征提取
1.sklearn文档从流程上,特征提取在特征选择之前,与特征选择有很大的不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。后者是将这些特征应用到机器学习中。可以理解为:特征提取是最前端的接口工作,负责将原始数据读入计算机,虽然数据完全没有处理,但是这是一切后续工作的第一步,相当于“粮食”。而后针对读入的原始数据,才进行特征选择的各项流程,相当于一个精细化的过程。...原创 2018-12-01 20:34:40 · 842 阅读 · 0 评论 -
【处理流程03】特征选择
参考文献:1.sklearn文档2.博客目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方...原创 2018-12-01 17:51:16 · 263 阅读 · 0 评论 -
【处理流程02】数据预处理
参考文献:1.sklearn文档2.博客1.标准化(也称去均值和方差按比例缩放)(1)原因:数据集的标准化对scikit-learn中实现的大多数机器学习算法来说是常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差),那么它们的表现力可能会较差。在实际情况中,我们经常忽略特征的分布形状,直接经过去均值来对某个特征进行中心化,再通过除以非常量特征(non-...原创 2018-11-30 12:59:57 · 533 阅读 · 0 评论 -
XGBoost使用相关收集--API介绍
参考文献:1.API文档中文版2.dump_model方法介绍DMatrix+Booster+train+cv+XGBClassifier+XGBRegressor+fit+绘图API1.核心数据结构1.1DMatrixclass xgboost.DMatrix(data, label=None, missing=None, weight=None, silent=False, fea...原创 2018-11-26 09:18:41 · 1898 阅读 · 0 评论 -
XGBoost使用相关收集--基本流程介绍
参考文献:1.Python 软件包介绍2.Python API参考总结一下常规使用流程:dtrain = xgb.DMatrix('train.svm.txt') #数据的文本导入dtrain = xgb.DMatrix(data, label=label, missing = -999.0) #处理数据中的缺失值w = np.random.rand(5, 1)dtrain ...原创 2018-11-22 22:11:17 · 889 阅读 · 0 评论 -
XGBoost使用相关收集--参数设定
参考文献:1.XGBOOST参数说明1.使用的基本结构:import xgboost as xgb# 读取数据dtrain = xgb.DMatrix('demo/data/agaricus.txt.train')dtest = xgb.DMatrix('demo/data/agaricus.txt.test')# 通过 map 指定参数param = {'max_depth':2...原创 2019-08-17 22:29:45 · 860 阅读 · 0 评论 -
【三部曲02】从GBDT到XGBoost
参考文献引用来源:1.XGBoost论文翻译和理解2.CART,回归树,GBDT,XGBoost,LightGBM一路理解过来Question1. 从论文本身表述看,xgboost有哪些工作点?【1】设计和构建高度可扩展的端到端提升树系统。【2】提出了一个理论上合理的加权分位数略图。 这个东西就是推荐分割点的时候用,能不用遍历所有的点,只用部分点就行,近似地表示,省时间。【3】引入了一...原创 2018-11-22 11:56:39 · 660 阅读 · 1 评论 -
【三部曲01】从CART到GBDT
参考文章引用来源:1.GBDT入门教程之原理、所解决的问题、应用场景讲解2.《统计学习方法》李航3.Question1. 首先明确,GBDT是做什么用的??GBDT (Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来...原创 2018-11-20 18:43:26 · 2034 阅读 · 0 评论 -
【转载】04 epoch、 iteration 和 batchsize 的理解
1.原文地址:https://blog.youkuaiyun.com/dearwind153/article/details/694843322.问题:epoch、iteration和batchsize三者的具体意思和关系。转载 2018-10-08 15:49:00 · 128 阅读 · 0 评论 -
【处理流程00】管理流程神器Pipeline(管道)
1.整体把握:Pipeline(管道)正如名字一样,直观上理解是用于对数据处理各个流程进行规范化统一管理的工具。Pipeline 可以把多个评估器链接成一个。这个是很有用的,因为处理数据的步骤一般都是固定的,例如特征选择、标准化和分类。特点:【1】便捷性和封装性你只要对数据调用 fit和 predict一次来适配所有的一系列评估器。【2】联合的参数选择你可以一次 :ref:grid ...原创 2018-12-01 23:22:15 · 1808 阅读 · 0 评论 -
【模型选择与评估01】交叉验证
1.参考文献sklearn文档交叉验证本质上属于机器学习模型外围的辅助手段,其针对的是在实际模型训练过程中,存在的过拟合问题而提出的解决方法。1.最基本的数据集划分基于的是sklearn中的train_test_split函数,实现数据集按指定比例划分为训练集和测试集(下面例子里比例为0.4)之所以说是最基本的划分方法,是因为仅基于比例做了单次划分。>>> impor...原创 2018-12-03 12:04:25 · 799 阅读 · 0 评论 -
【模型选择与评估02】调整估计器的超参数
1.参考文献sklearn文档背景:超参数,即不直接在估计器内学习的参数。在 scikit-learn 包中,它们作为估计器类中构造函数的参数进行传递。搜索超参数空间以便获得最好分数的方法是可能的而且是值得提倡的。通过这种方式,构造估计器时被提供的任何参数或许都能被优化。具体来说,要获取到给定估计器的所有参数的名称和当前值,使用:estimator.get_params()搜索包括:...原创 2018-12-03 17:44:44 · 418 阅读 · 0 评论 -
降维方法:PCA、SVD、LDA、LLE
参考文献:1.SVD原理与在降维中的应用2.PCA和SVD的关系原创 2019-06-01 23:38:34 · 1449 阅读 · 0 评论