- 博客(20)
- 收藏
- 关注
转载 (二)Logistic Regression[逻辑回归]&正则项
逻辑回归解决的是分类问题,它的本质是给了X,y,来求解θ,和线性回归很像。逻辑回归也是Xθ进行预测,预测的值可以理解为概率,在0~1之间,比如可以将>0.5的值归为1,总之,逻辑回归和线性回归都是为了得到θ(θ是个香饽饽~),得到了之后,一个用来分类,一个用来预测。下面详解。逻辑回归比如打算把一群sample分成2类,分别用0,1代表负样本和正样本,即y⊂{0, 1},
2017-11-01 18:06:16
1500
转载 使用sklearn进行集成学习——实践
目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参? 2.1 调参的目标:偏差和方差的协调 2.2 参数对整体模型性能的影响 2.3 一个朴实的方案:贪心的坐标下降法 2.3.1 Random Forest调参案例:Digit Recognizer 2.3.1.1 调整过程影响类参数
2017-10-26 16:52:36
610
转载 使用sklearn进行集成学习——理论
目录1 前言2 集成学习是什么?3 偏差和方差 3.1 模型的偏差和方差是什么? 3.2 bagging的偏差和方差 3.3 boosting的偏差和方差 3.4 模型的独立性 3.5 小结4 Gradient Boosting 4.1 拟合残差 4.2 拟合反向梯度 4.2.1 契机:引入损失函数 4.2.2
2017-10-26 16:20:35
268
转载 使用Python进行描述性统计
目录1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值、中位数、众数) 2.3 发散程度(极差,方差、标准差、变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析
2017-10-26 14:44:32
839
转载 使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析
2017-10-26 14:31:06
377
转载 数据挖掘sklearn中的的特征工程处理
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法
2017-10-26 11:00:00
393
转载 子空间投影
分类: 线性代数首先我们可以通过上图了解投影在二维空间R2中是怎么回事,现有向量a和b,将b向量投影到a向量,p为b在a上的投影,即p是a上离b最近的点,e=b-p这好比b与p之间的误差,这个误差与a相互垂直,根据垂直关系我们可以列出方程,投影p是a的倍数,所以p=xa,这个x是一个标量,a垂直于e,也就是说 ,将式子作一些变形得到 ,则,投影 ,从投影p的式子可以看出,若
2017-10-26 10:47:39
478
1
转载 七种降维方法
感谢王穆荣的投稿,转载请注明出处:数盟社区近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。最新的一个例子是采用 2009 KDD Challenge 大数据集来预测客户流失量。 该数据集维度达到 15000 维。 大多数数据挖掘算
2017-10-25 18:32:48
1062
转载 机器学习中的正则化
作者:陶轻松链接:https://www.zhihu.com/question/20924039/answer/131421690来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。r(d)可以理解为有d的参数进行约束,或者 D 向量有d个维度。咱们将楼主的给的凸优化结构细化一点,别搞得那么抽象,不好解释; , 其中,咱们可
2017-10-25 18:30:22
157
转载 xgboost入门与实战(实战调参篇)
xgboost入门与实战(实战调参篇)前言前面几篇博文都在学习原理知识,是时候上数据上模型跑一跑了。本文用的数据来自kaggle,相信搞机器学习的同学们都知道它,kaggle上有几个老题目一直开放,适合给新手练级,上面还有很多老司机的方案共享以及讨论,非常方便新手入门。这次用的数据是Classify handwritten digits using the famous MNI
2017-10-25 18:27:58
315
转载 提升树GBDT详解
参考资料及博客: 李航《统计学习方法》 Gradient Boosting wikiGBDT理解二三事GBDT(MART) 迭代决策树入门教程 | 简介前言 For Xgboost:在前几篇笔记中以及详细介绍了决策树及提升方法的相关原理知识,本文是提升树与梯度提升方法的学习笔记,同时阅读了网络上的一些关于GBDT的博文,加强理解。为了能好好理解Xgboo
2017-10-25 18:19:34
352
转载 xgboost入门(原理)
xgboost入门与实战(原理篇)前言:xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI,
2017-10-25 18:18:25
482
转载 统计学习方法——CART, Bagging, Random Forest, Boosting
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest Boosting四种分类器的特点与分类方法,参考材料为密歇根大学Ji Zhu的pdf与组会上王博的讲解。CART(Classification And Regressio
2017-10-25 18:00:18
217
转载 【特征工程】特征选择与特征学习
特征选择与特征学习在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现。在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用的特性。人工选取出来的特征依赖人力和专业知识,不利于推广。于是我们需要通过机器来学习和抽取特征,促进特
2017-10-25 17:57:34
1016
转载 机器学习中的二元分类问题
一、二元分类问题 接着上一节我们举得例子,我们说机器学习的流程是什么呢?首先我们要有一个学习的演算法,我们叫做A,这个演算法会看资料,然后会看我们的假设函数集合,从集合中选择一个假设函数做为我们的银行学到技能。这其实就是一个使用机器学习做是非题的问题。 那么假设函数集合是什么样子呢? 我们把每一个使用者当做一个向量X(年龄,工作年限,年薪),每一维都当做一个特征
2017-10-25 17:45:20
5526
转载 核函数在机器学习上的
作者:王赟 Maigo链接:https://www.zhihu.com/question/24627666/answer/28440943来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。下面这张图位于第一、二象限内。我们关注红色的门,以及“北京四合院”这几个字下面的紫色的字母。我们把红色的门上的点看成是“+”数据,紫色字母上的点看成是“
2017-10-25 15:18:00
817
转载 参数回归,无参数回归和半参数回归
参数回归是我们最长用的模型。与参数回归相对的非参数回归,这种模型对变量分布等假定并不是很严等,因此可以说扩展了参数回归的应用范围。但是非参数回归的局限性在于,在存在较多的解释变量时,很容易出现所谓的“维度灾难”,像方差的急剧增大等现象。 这类模型包括实例回归,局部加权回归(LOESS)和样条回归。非参数方法一般适用于低维空间(较少的解释变量)。该局部加权回归曲线是利用点附近的点信息,使用
2017-10-25 14:18:49
16354
1
转载 随机森林进行特征重要性度量的详细说明
http://mingyang5.chinanorth.cloudapp.chinacloudapi.cn:8888特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明。1 特征重要性度量计算某个特征X的重要性时,具体步骤如下:1)对每一颗决策树,选择相应的袋外数据(out of bag,O
2017-10-24 16:08:03
27555
4
转载 欢迎使用优快云-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-10-24 15:02:08
153
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人