
机器学习
酸柠檬水
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
常见机器学习模型总结
2-常见机器学习模型总结一、机器学习模型按照可使用的数据类型分为监督学习和无监督学习两大类。 1-监督学习主要包括用于分类和用于回归的模型: 1)分类:线性分类器(如LR)、支持向量机(SVM)、朴素贝叶斯(NB)、K近邻(KNN)、决策树(DT)、集成模型(RF/GDBT等) 2)回归:线性回归、支持向量机(SVM)、K近邻(KNN)、回归树(DT)、集成模型(Ex...转载 2019-02-27 11:13:48 · 722 阅读 · 0 评论 -
SVM支持向量机
https://www.pkudodo.com/2018/12/16/1-8/ 很好目录线性非线性线性C越大相当于容错空间越小 ==》后面最小化时进行打压的厉害就变成硬间隔了非线性 核函数先特征映射为新特征 进行变形 在点乘 ...原创 2019-06-18 12:26:26 · 209 阅读 · 0 评论 -
评价分类结果
实际中我们把真正关注的标记为1(癌症病人 贷款失信人)精准率:预测这个事件为发生 中 事件真正发生 有多少 预测我们关注的事件 预测准确度 做100次预测患病发生 预测正确占多少召回率:事件真实发生中 我们 预测正确的为多少 100...原创 2019-06-11 21:17:05 · 758 阅读 · 0 评论 -
逻辑回归
https://www.cnblogs.com/ModifyRong/p/7739955.html很好 全面逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。解决分类问题:也可以用于回归 计算相应的概率此时 X一行为一个样本 Y 为一列梯度推导==》...原创 2019-06-10 18:59:18 · 134 阅读 · 0 评论 -
多项式回归 过拟合 模型泛化 模型误差
很过数据是没有线性关系的==》非线性 =》多项式模拟非线性曲线添加的特征是原来特征的线性组合==》解决非线性问题=》数据集升维 (PCA降维) 有时升维有时降维 =》x^2 x 虽然是同一特征 但我们把它x^2当做是另一个特征Pipeline 创建多项式回归: 通过增加特征 依然使用使用线性回归多项式回归拟合非线性:一个二次曲线...原创 2019-06-10 15:36:52 · 1447 阅读 · 0 评论 -
模型正则化
fdg原创 2019-06-09 19:10:58 · 208 阅读 · 0 评论 -
主成分分析(PCA)
预处理数据的方法总结(使用sklearn-preprocessing):https://blog.youkuaiyun.com/sinat_33761963/article/details/53433799向量点乘(内积)和叉乘(外积、向量积)概念及几何意义解读:https://blog.youkuaiyun.com/dcrmg/article/details/52416832主成分分析(PCA)原理详解:ht...原创 2019-06-08 15:12:13 · 513 阅读 · 0 评论 -
交叉熵
为什么交叉熵(cross-entropy)可以用于计算代价?==》https://www.zhihu.com/question/65288314根源于KL散度能衡量两个分布的不同=》训练分布是给定的==》熵是定的==》所以可以用交叉熵等价代替KL散度==》衡量两个分布的不同有多大==》交叉熵可以用于计算“学习模型的分布”与“训练数据分布”之间的不同==》交叉熵的p和q相当于...原创 2019-06-02 09:00:34 · 844 阅读 · 0 评论 -
最大似然估计 (Maximum Likelihood Estimation), 交叉熵 (Cross Entropy) 与深度神经网络
==》https://www.zhihu.com/question/54082000似然表达了给定样本下参数(相对于另外的参数)为真实值的可能性==》我们再回到这个表达。首先我们严格记号,竖线表示条件概率或者条件分布,分号表示把参数隔开。所以这个式子的严格书写方式是因为在右端只当作参数理解==》https://www.cnblogs.com/LeftNotEasy/p/ml...原创 2019-06-01 23:07:31 · 699 阅读 · 0 评论 -
Softmax 与 Sigmoid 的 异同
Softmax 与 Sigmoid 的 异同=>https://blog.youkuaiyun.com/JNingWei/article/details/79231645原创 2019-06-01 20:32:08 · 973 阅读 · 0 评论 -
为什么梯度方向是函数值增大最快的方向
为什么梯度反方向是函数值局部下降最快的方向?参考:https://zhuanlan.zhihu.com/p/24913912定义:方向导数实际上是函数f在x_0处沿l方向关于距离t的变化率方向导数的几何意义,f(x,y)在x_0处有唯一的切线,该点关于l方向的斜率就是方向导数.在方向导数中,一种特别重要的情形是沿着坐标轴正向的方向导数,这就是偏导数偏导数定义:...转载 2019-04-17 10:33:46 · 985 阅读 · 0 评论 -
决策树
非参数学习:对个别数据敏感 高度依赖于调参 生成一个较好的模型决策边界:平行于 x y经济学决策树建模 ==》 机器学习领域 用于集成学习方式创建随机森林 的算法=》可以得到较好的结果 右边比左边确定 右边没有任何不确定性信息熵对应数据不确定性的度量 基尼...原创 2019-06-18 21:05:06 · 218 阅读 · 0 评论 -
集成学习与随机森林
最基本的思路:一、 voting - hard voting soft voting =>区别在于少数服从多数带不带权重二、大批量集成学习克服voting模型少 1.对于samples方面 baging pasting 随机取样 2.也...原创 2019-06-19 16:55:48 · 425 阅读 · 0 评论 -
机器学习 距离 相似度
余弦:空间角度上的相似 皮尔森:计算离散度 协方差单位化(去量纲)杰卡德:交集/并集 集合中元素相似度 计算样本相似度 网页去重 论文查重向量空间余弦相似度:https://www.cnblogs.com/dsgcBlogs/p/8619566.html余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量...原创 2019-06-20 18:51:06 · 312 阅读 · 0 评论 -
SnowNLP:一个强大的python中文文本处理库
转载:https://www.jianshu.com/p/60bd8d9b0a06背景笔者由于最近做一个监控应用评论内容的项目,为满足需求,需要对抓取下来的应用评论做中文语义识别,结果搜出来的大部分都是仅限英文语义识别的库,搜好久才找到这个国人开发的中文文本处理库(包含语义识别功能),特此介绍给大家。开源项目Github地址SnowNLP安装跟其他python类库一样,使用pi...转载 2019-02-27 11:14:21 · 2088 阅读 · 0 评论 -
泛化误差上界证明
转载 2019-02-27 11:14:38 · 1175 阅读 · 0 评论 -
贝叶斯与似然估计
极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的...转载 2019-02-27 11:10:20 · 440 阅读 · 0 评论 -
极大似然估计
导语统计学中,我们经常能听到极大似然估计,或者最大似然估计,它是一种参数估计方法。在机器学习中,逻辑回归就是基于极大似然估计来计算的损失函数。那么,如何直观理解极大似然估计?极大似然估计极大似然估计(maximum likelihood estimation,MLE),顾名思义,“极大”意为“最有可能的”,“似然”意为“看起来像的”,“估计”的意思则可以理解为“就是这样的”。所以,极大...转载 2019-02-27 11:14:29 · 251 阅读 · 0 评论 -
ROC曲线-阈值评价标准
ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近...转载 2019-02-28 11:16:04 · 502 阅读 · 0 评论 -
AUC计算
一、roc曲线1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity)纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity...转载 2019-02-28 11:29:32 · 606 阅读 · 0 评论 -
精确率 召回率 准确率
作者:Charles Xiao链接:https://www.zhihu.com/question/19645541/answer/91694636来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。精确率(precision)和准确率(accuracy)是不一样的,主要精确率与召回率之间的差别一.定义辨析刚开始接触这两个概念的时候总搞混,时间一长就记不清了。...转载 2019-02-27 11:24:20 · 1647 阅读 · 0 评论 -
机器学习调参
原创 2019-06-19 21:13:50 · 438 阅读 · 0 评论 -
KNN 及 matplotlib 数据归一化
透明度:样本空间分布相似 则样本很可能相似通过一个与样本数相同的 乱序数组选取一定比例的乱序数组 对应的样本 即完成划分分类准确度: 预测对的结果数/ 总的测试样本数超参数:...原创 2019-06-20 15:22:39 · 976 阅读 · 0 评论 -
XGboost
树的建立不是相互独立而是递进过程,基于前面结果生成下一颗树每加一棵树效果就会提升...原创 2019-07-07 10:16:46 · 411 阅读 · 0 评论