
机器学习
文章平均质量分 87
Chercheer
道阻且长
展开
-
机器学习可解释性方法Lime小结
机器学习相对简单线性模型有更优异的效果,但是其复杂的原理让模型并不容易理解和解释。可解释的方法有很多众,大概可以分为全局解释和局部解释,以及与模型适配和与模型无关的方法,本文对一种局部的、与模型无关的方法Lime进行介绍,尝试从原理并结合python的Lime工具包进行梳理。原理介绍Lime(Local Interpretable Model-Agnostic Explanations)是使用训练的局部代理模型来对单个样本进行解释。假设对于需要解释的黑盒模型,取关注的实例样本,在其附近进行扰动生成新原创 2020-08-24 16:57:45 · 6195 阅读 · 3 评论 -
特征重要性与shap值
在模型的训练过程中,往往会需求更加优异的模型性能指标如准确率、召回等,但在实际生产中,随着模型上线使用产生衰减,又需要快速定位问题进行修复,因此了解模型如何运作、哪些特征起到了关键作用有着重要意义。同时,可解释的模型能够让业务方也就是模型使用者,能够更加信任和熟悉模型的决策过程。尤其在风控领域,基于金融机构的监管层要求以及信贷业务的稳健发展方面,都需要在信贷业务流程中部署的风控模型具有良好的解释性。机器学习效果往往会优于传统的评分卡模型,相对于可以对每个入模变量赋予权重的逻辑回归方法来说,机器学习的训练原创 2020-07-23 19:42:30 · 12481 阅读 · 4 评论 -
【统计学习方法笔记】第一章统计学习概论
1.1统计学习统计学习包括:监督学习,非监督学习,半监督学习,强化学习,本书主要讨论监督学习。1.2 统计学习的分类重点为监督学习:监督学习的实现步骤 得到一个有限的训练数据集合; 确定模型的假设空间,也就是所有的备选模型; 确定模型选择的准则,即学习的策略; 实现求解最优模型的算法; 通过学习方法选择最优模型; 利用学习...原创 2020-02-29 20:43:55 · 454 阅读 · 0 评论 -
fasttext算法原理及使用
1. FastText原理fastText是一种简单高效的文本表征方法,性能与深度学习比肩。fastText的核心思想就是:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。这中间涉及到两个技巧:字符级n-gram特征的引入以及分层Softmax分类。主要功能在于:文本分类:有监督学习 词向量表征:无监督学习1.1 模型框架(Model a...原创 2019-12-21 22:30:17 · 4113 阅读 · 1 评论 -
【CS224n课程笔记】Lecture 01 Introduction and Word Vectors
word vectors词向量有时被称为词嵌入word embeddings或词表示word representations,Word2vec本质上是一个学习单词向量的框架,为每个单词构建一个密集的向量,使其与出现在相似上下文中的单词向量相似。例如, ...原创 2020-03-01 19:00:11 · 289 阅读 · 0 评论 -
数据分析与数据挖掘面试题收集
比赛怎么做的(先说解决的问题,属于回归还是二分类问题,KS曲线是什么含义,能优化吗(用AUC代替))KS值:用真正率和假正率的累计值分别做为纵坐标就得到两个曲线,这就是K-S曲线。GBDT与XGBoost的区别(知乎wepon大神:https://www.zhihu.com/question/41354392)传统GBDT以CART作为基分类器,xgbo原创 2017-04-07 00:53:00 · 5329 阅读 · 0 评论 -
《机器学习实战》之Adaboost
首先抛出问题,如何解决不均衡分类问题?这个问题我觉得应该从原理上和实际调参两个方面来回答,原理部分从adboost入手,实践部分则是sklearn相关参数(这个后面遇到了再补充)。什么是boosting?通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类性能。那么问题又来了,对于提升方法来说,有两个问题需要回答:(1)每一轮如和改变训练样本的权值和概率分布?原创 2017-09-30 16:57:37 · 1628 阅读 · 0 评论 -
LightGBM参数
LightGBM的优势。 更快的训练速度和更高的效率: LightGBM使用基于直方图的算法。例如,它将连续的特征值分桶(buckets)装进离散的箱子(bins),这是的训练过程中变得更快。 更低的内存占用:使用离散的箱子(bins)保存并替换连续值导致更少的内存占用。 更高的准确率(相比于其他任何提升算法) : 它通过leaf-wise分裂方法产生比level-wis...原创 2019-01-17 00:34:11 · 7608 阅读 · 0 评论 -
Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升树
GBDT类库概述GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting), GBRT(Gradient Boosting Regression Tree),MART(Multiple Additive Regression Tree),其实都是指的同一种算法。sklearn中称为GradientTree原创 2017-02-11 14:10:38 · 16772 阅读 · 3 评论 -
Sklearn-RandomForest随机森林
在scikit-learn中,RandomForest的分类类是RandomForestClassifier,回归类是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。sklearn官网地址(RandomForestClassifier):http://scikit-learn.org/stable/mod原创 2017-02-10 16:28:42 · 70903 阅读 · 13 评论 -
利用sklearn进行集成学习之相关理论
转自http://www.cnblogs.com/jasonfreak/p/5657196.html集成学习的几个主要算法讲的精简易懂,特别是集成学习过程中的调参涉及到的理论部分,特别是对偏差和方差有了更直观的理解,以及几个不同的损失函数归纳,第四部分的公式需要配合《统计学习方法》理解。 目录1 前言2 集成学习是什么?3 偏差和方差3.1 模型的偏差和方差是什么?转载 2017-02-07 20:39:27 · 1793 阅读 · 0 评论 -
机器学习算法——KNN
算法概述“如果走像鸭子,叫像鸭子,看起来还像鸭子,那么它很可能就是一只鸭子”。简单地说,KNN采用测量不同特征值之间的距离方法进行分类。如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。算法流程依公式计算 Item 与 D1、D2 … …、Dj 之相似度。得到Sim(Item, D1)、Sim(Item, D原创 2017-01-07 15:31:01 · 842 阅读 · 0 评论 -
数据降维
概念数据降维基本原理是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示。为什么要降维:在原始的高维空间中,包含有冗余信息记忆噪声信息;feature太多会造成模型复杂,训练速度过慢,因此我们引入降维;多维数据很难进行可视化分析,因此我们需要降维分析。例如淘宝店铺的数据,“浏览量”访客数往往有较强的相关关系,如果删除其中一个指标,应该期原创 2017-01-07 20:20:04 · 1402 阅读 · 0 评论 -
机器学习算法——聚类分析
概念聚类分析 (cluster analysis)是一组将研究对象分为相同质的群组(clusters)的统计分析技术。 聚类分析也叫(classificationanalysis)或数值分类 (numerical taxonomy)。聚类与分类的不同在于, 聚类所要求划分的类是未知的。聚类度量方法聚类之间的度量是分距离和相似系数来度量的距离:用来度量样品之间的相似性(KMe原创 2017-01-07 20:42:36 · 1886 阅读 · 0 评论 -
模型评估
ROC曲线 接收器操作特性曲线(receiver operating characteristic curve),曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。概念定义:真正(TruePositive , TP)被模型预测为正的正样本;假负(FalseNegative , FN)被模型预测为负的正样本;假正(Fal原创 2017-01-07 20:13:12 · 4229 阅读 · 0 评论 -
机器学习算法——logistic回归
概念逻辑回归就是这样的一个过程:面对或者分类问题,建立代价函数然后通优化方法迭代求解出最优的模型参数,然后测试验证我们这个好坏。Regression常规步骤寻找h函数(即预测函数);构造 J函数(损失);函数(损失);想办法使得 J函数最小并求得回归参(θ)构造预测函数h:logistic回归虽然名字里带“回归”,但是它实际上是原创 2017-01-07 20:30:18 · 5459 阅读 · 0 评论 -
机器学习算法——集成学习
概念集成学习是机器中一个非常重要且热门的分支,用多个弱分类器构成一个强分类器,其哲学思想是 “三个臭皮匠赛过诸葛亮 ”。为什么要集成?模型选择:假设各弱分类器间具有一定差异性(如不同的算法,或相参数配置),这会导致生成假设各弱分类器间具有一定差异性(如不同的算法,或相参数配置),这会导致生成类决策边界不同,也就是说它们在时会犯的错误。将结合后能得到更理减少整体错误,原创 2017-02-06 19:03:50 · 2155 阅读 · 0 评论 -
机器学习算法——决策树
基本概念决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。三种结点:根结点:没有入边,但有零条或者多条出边内部结点:恰有一条入边和两条或多条出边叶结点:恰有一条入边,但没有出边种类:分类树:对离散变量做决策树回归树:对连续变量做决策树相关数学知识信息熵(entropy原创 2017-02-08 16:34:36 · 2803 阅读 · 0 评论 -
利用sklearn进行集成学习之调参
转自:http://www.cnblogs.com/jasonfreak/p/5720137.html目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参?2.1 调参的目标:偏差和方差的协调2.2 参数对整体模型性能的影响2.3 一个朴实的方案:贪心的坐标下降法2.3.1 Random Forest调参案例:Digit转载 2017-02-09 14:39:00 · 6487 阅读 · 1 评论 -
机器学习导论-KaggleTitanic视频及教程
基本概念对历史数据的计算,对未来还没发生的事情进行预测训练集:训练模型测试集:测试模型验证集:选择参数建立模型时怎么知道模型的好坏:评估标准核心:优化误差函数/代价函数J(theta),目标是优化代价函数,使之达到最小评估标准:预测正确的/总预测的数目=准确率(很少用准确率衡量,一般都很高) 一般两个指标:精确Precision,召回Reca原创 2016-12-20 20:58:00 · 1564 阅读 · 0 评论