
机器学习
文章平均质量分 89
_illusion_
知乎主页:https://www.zhihu.com/people/illusions-29/posts
展开
-
softmax函数到底是什么?——归一化指数函数,及其python实现
softmax应该算是机器学习的入门数学知识了。softmax函数,它并不十分复杂,但又不是十分简单,总之这个函数就是很难去背诵下来,以致于每次你要写softmax的时候,都得搜一下才行。而每次搜索softmax,都对你的信心是一次小规模打击——这么简单的数学公式我还不会?我这是要凉啊。。。好了,废话少说。我想,我们一直难以把并不很复杂的softmax函数背下来的原因,可能并非因为我们懒,而是...原创 2019-11-03 14:39:46 · 8540 阅读 · 0 评论 -
梯度下降?梯度上升?梯度提升?
最近被这三个词搞蒙了。原本没觉得它们有多难区分,但真要向一个人解释清类似“为何要有梯度提升”这类问题,似乎还是很吃力,从而发现自己其实并没有完全理解其中的含义。也许根本就不存在什么“梯度上升”,只有“梯度提升”罢,但我觉得,至少在中文环境里,大家越发的喜欢无意识地将这两个词分别开来,从而这两个词逐渐显示出不同的含义。下面我就简单介绍一下他们之间的差别吧。首先,梯度下降梯度下...原创 2019-10-23 17:10:07 · 2510 阅读 · 0 评论 -
【机器学习经典算法梳理】一.线性回归
【机器学习经典算法梳理】是一个专门梳理几大经典机器学习算法的博客。我在这个系列博客中,争取用最简练的语言、较简洁的数学公式,和清晰成体系的提纲,来尽我所能,对于算法进行详尽的梳理。【机器学习经典算法梳理】系列博客对于机器学习算法的梳理,将从“基本思想”、“基本形式”、“过程推导”、“损失函数”、“sklearn库的参数含义”和“总结”几个方面去进行。下面,就让我开始第一个算法,线性回归吧!...原创 2018-10-14 12:35:04 · 1320 阅读 · 0 评论 -
sklearn之Cross-validation、GridSearchCV,以及训练集(train)、测试集(test)、验证集(validate)的辨析
1.训练集(train)、测试集(test)、验证集(validate)对于初学者而言,训练集、测试集、验证集这三个词可能会让你很迷糊,特别是后两者。这里我尽量用简单的话说一下我自己的理解,希望可以讲明白: 对于机器学习模型训练而言,一般是分为训练集和测试集的。训练集有input(X)和label(y),测试集只有input(X),它的label是要测试集训练好的模型去预测的...原创 2018-09-29 00:41:15 · 15447 阅读 · 6 评论 -
SVM的两个参数 C 和 gamma的解析
转载于:https://blog.youkuaiyun.com/lujiandong1/article/details/46386201SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差,容易过拟合。C越小,容易欠拟合。C过大或过小,泛化能力变差 gamma是选择RBF函数作为kernel后,该函数自带的一个参数。隐含...转载 2018-09-29 17:05:01 · 16764 阅读 · 0 评论 -
关于SVM的一些问题
**转载自**:https://blog.youkuaiyun.com/fanghuidi/article/details/78147985 1、为什么要选择最大间隔分类器,请从数学角度上说明? 答:几何间隔与样本的误分次数间存在关系: 其中的分母就是样本到分类间隔距离,分子中的R是所有样本中的最长向量值2、样本失衡会对SVM的结果产生影响吗?...转载 2018-10-30 14:42:47 · 1572 阅读 · 0 评论 -
【机器学习经典算法梳理】二.逻辑回归
复习思路大多数机器学习算法的思路,都是依照以下顺序进行:名词解释、定位、解决什么问题;数学模型(基础)(得到假设函数h(x)=???)根据以上模型构建的目标函数(如MLE最大似然估计、MAE最大后验概率)求解argmax目标函数,此时涉及到一系列优化算法(如梯度下降、牛顿法、坐标上升等),最终求解得出参数/theta在目标函数取得极大值的时候的取值该算法的其他注意事项,如适用范围、...原创 2019-02-24 17:35:58 · 474 阅读 · 0 评论 -
线性特征与非线性特征、线性模型与非线性模型
一.线性特征与非线性特征“线性”与“非线性”是数学上的叫法。线性,指的就是两个变量之间成正比例的关系,在平面直角坐标系中表现出来,就是一条直线;而非线性指的就是两个变量之间不成正比,在直角坐标系中是曲线而非直线,例如一元二次方程的抛物线、对数函数等等关系。一切不是一次函数的关系,都是非线性的。 线性特征:次数为1的特征。这些特征对结果的影响是满足加法原则的,即整体等于部分之和 非线性特征:...原创 2019-03-05 00:29:58 · 24777 阅读 · 3 评论 -
LR、决策树、SVM的选择与对比
看到一篇很精彩的文章,特转载于此,转载源:https://www.jianshu.com/p/743cf2357b28分类问题是我们在各个行业的商业业务中遇到的主要问题之一。本文将逻辑回归(Logistic Regression)、决策树(Decision Trees)和支持向量机(Support Vector Machine,SVM)进行对比找出每个算法的优缺点以及适合的数据形式。上面列...转载 2019-03-05 00:38:24 · 10909 阅读 · 0 评论 -
为何将连续变量离散化,就可以增加模型的“非线性能力”?
将连续变量离散化,可以增加模型的“非线性能力”这句话我在不同的地方看到不少人说过,但这句话总是让我感到困惑——知其然不知其所以然的困惑。今天我就从一个小白的角度尝试着解释一下这句话——首先,何为“非线性能力”要搞清:非线性能力,指的就是model在对“线性不可分”数据集进行分类时所展现的能力。我们所熟知的“硬间隔SVM”就是线性model,有人也把LR称作线性model。但我们又可以通...原创 2019-06-18 15:29:23 · 2733 阅读 · 0 评论 -
pandas日常使用笔记:iterrows()、mode()需要注意的东西
1.iterrows()、iteritems():此方法用于对DataFrame进行行或者列的迭代获取 经过此方法所得到的DataFrame行或者列,你永远都不要去对它进行改动。因为迭代所得只是这个数据对象的复制本,你对它进行何种改动都无济于事 2.mode():此方法用于获得该列“众数”,即本特征下取值最多的那个特征值(因而可能不止一个结果) 如果你想用mode()函数的计算结...原创 2018-09-28 14:10:39 · 10648 阅读 · 2 评论 -
XGBoost调参思路
最近在上手XGBoost,看到一篇非常棒的博客,在此分享给大家,同时感谢原作者。原文出处:https://segmentfault.com/a/1190000014040317 我前面所做的工作基本都是关于特征选择的,这里我想写的是关于XGBoost参数调整的一些小经验。之前我在网站上也看到很多相关的内容,基本是翻译自一篇英文的博客,更坑的是很多文章步骤讲的不完整,新人看了很容易一头雾...转载 2018-10-01 10:25:32 · 1587 阅读 · 1 评论 -
六大聚类算法
转载自:https://blog.youkuaiyun.com/Katherine_hsr/article/details/79382249 1. K-Means(K均值)聚类算法步骤: (1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数...转载 2018-08-22 02:11:43 · 564 阅读 · 0 评论 -
LDA概念辨析(词分布与关键词权重TF-IDF)
众所周知,LDA——隐狄利克雷分布作为一个“生成模型”,可以随机生成一篇文章。而我们在求一篇文章的关键词的时候,要涉及到这篇文章的主题分布和词分布。而我们进行具体的主题分布以及词分布计算的时候,我们会先将文档的词项(term)进行TF-IDF处理。我下面对TF-IDF和词分布的概念加以辨析。TF-IDF是一种衡量某一篇文档中某个词对该篇文档重要程度的计算方法。通过TF-IDF公式,我们可以计算...原创 2018-09-02 14:54:24 · 9702 阅读 · 0 评论 -
sklearn提供的Logistic Regression库中各个参数的含义详解
转载地址:https://blog.youkuaiyun.com/CherDW/article/details/54891073 逻辑回归:可以做概率预测,也可用于分类,仅能用于线性问题。通过计算真实值与预测值的概率,然后变换成损失函数,求损失函数最小值来计算模型参...转载 2018-09-08 09:40:47 · 28622 阅读 · 7 评论 -
XGBoost详解
看到一份XGBoost的讲解,觉得作者的思路很好,特分享于此———-1.引言最近,因为一些原因,自己需要做一个小范围的XGBoost的实现层面的分享,于是干脆就整理了一下相关的资料,串接出了这份report,也算跟这里的问题相关,算是从一个更偏算法实现的角度,提供一份参考资料吧。这份report从建模原理、单机实现、分布式实现这几个角度展开。在切入到细节之前,特别提一下,对于...转载 2018-09-08 12:24:17 · 7578 阅读 · 0 评论 -
主题模型一——潜在隐语义索引(LSI/LSA)
本人在最近的学习中看到了三篇关于主题模型、关键词提取和文档相似度计算的优秀文章,一一转载于此,供主题模型初学者学习、消化。以下是正文:在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。1. 文本主题模型的问题特点 在数据分析中,我们经常会进...转载 2018-09-03 17:21:15 · 2747 阅读 · 0 评论 -
回顾logistic回归所得
子曰,温故而知新。下面简单聊聊作为小白的我简单回顾了logistic回归之后的一点心得:1.logistic回归之所以被划为“线性模型”,被称作“广义线性回归”的原因在于,它实际上是用线性回归模型: 对“对数几率”的近似,即。几率(odds): ;对数几率即对odds取自然对数。2.logistic regression也可以得出类似朴素贝叶斯算法中“后验概率”的东西,这个“...原创 2018-09-06 17:15:46 · 458 阅读 · 0 评论 -
离散型变量的编码方式——one-hot与哑变量(dummy variable)
我们在用模型去解决机器学习问题的时候,要提前进行“特征工程”。而特征工程中很重要的就是对特征的预处理。当你使用的是logistic回归这样的模型的时候,模型要求所有特征都应该是数值型变量,即连续的。但我们生活中常常遇到类别型变量(categorical variable),例如著名的Kaggle泰坦尼克生还预测这个比赛中,乘客从哪里上船(Embarked)这个变量就是类别型变量。这三个登船点两...原创 2018-09-12 10:47:42 · 14865 阅读 · 1 评论 -
最大似然估计vs最大后验概率
1) 最大似然估计 MLE给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值和方差;或者是二项分布,但是不知道均值。 最大似然估计(MLE,Maximum Likelihood Estimation)就可以用来估计模型的参数。MLE的目标是找出一组参数,使得模型产生出观测数据的概率...转载 2018-09-20 01:01:36 · 430 阅读 · 0 评论 -
如何将numpy数组指定为字符串类型
我们知道numpy在创建多维数组上非常方便但是一般默认是float64 或者int32/64的我们要想用numpy创建字符串类型的元素时可以按照以下方法Screen Shot 2017-10-09 at 10.33.13.png但是有一个问题,它会把数据的长度限定为1如图:Screen Shot 2017-...转载 2018-08-10 15:23:04 · 18638 阅读 · 0 评论