机器学习
文章平均质量分 80
mingxiaod
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从此开始记录转行机器学习
梦想起航的地方,为人生赌一把!——研二第一学期原创 2018-11-04 12:30:32 · 597 阅读 · 1 评论 -
共享单车数据分析
Capital Bikeshare trip data数据特征总共七个特征:Duration:骑行持续时间,数据形式:844108ms和14h 26min. 2secStart date:开始日期,数据形式:12/31/2010 23:49End date:结束日期,数据形式:1/1/2011 14:15Start station :起始站,数据形式:10th &amp原创 2019-03-26 10:14:22 · 20306 阅读 · 21 评论 -
ROC曲线与AUC值
一、相关概念ROC的全名叫做Receiver Operating Characteristic,其主要分析工具是一个画在二维平面上的曲线——ROC curve。平面的横坐标是false positive rate(FPR),错误率。纵坐标是true positive rate(TPR),真值率。AUC(Area Under roc Curve)是一种用来度量分类模型好坏的一个标准。为ROC曲线...原创 2019-01-09 21:14:14 · 2324 阅读 · 0 评论 -
机器学习算法梳理—XGB
【Task3 XGB算法梳理】【参考框架】欢迎有自己的框架XGB算法原理损失函数分裂结点算法正则化对缺失值处理优缺点应用场景sklearn参数学有余力的同学可以看看LightGBM。...原创 2019-01-08 10:18:27 · 1207 阅读 · 0 评论 -
机器学习算法梳理—GBDT算法
文章目录一、前向分步算法二、负梯度拟合三、损失函数1.分类问题损失函数2.回归问题损失函数四、回归算法五、二元分类六、正则化1.步长设置(learning rate)2.子采样比例(subsample)七、优缺点八、sklearn参数九、应用场景参考文献本文Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总...原创 2019-01-06 21:41:25 · 2195 阅读 · 0 评论 -
机器学习算法梳理-LightGBM
文章目录一、LightGBM的起源二、Histogram与pre-sorted比较1.优势2.劣势三、leaf-wise VS level-wise四、特征并行和数据并行1.特征并行1.1传统算法的的特征并行1.2 传统的特征并行方法主要不足:1.3 LightGBM 中的特征并行2.数据并行2.1 传统的数据并行算法2.2 传统数据并行的不足:2.3 LightGBM中的数据并行五、顺序访问梯度...原创 2019-01-10 14:58:34 · 2095 阅读 · 0 评论 -
机器学习算法梳理—随机森林
文章目录一、 集成学习二、个体学习器三、Boosting 与Bagging(1)Boosting算法(2)Bagging算法四、结合策略(1)平均法(2)投票法(3)学习法五、随机森林思想六、随机森林的推广(1)数据的选择(2)特征的选择七、优缺点(1)随机森林的优点(2)随机森林的缺点八、sklearn参数(1)sklearn中决策树的参数(2)随机森林特有的参数:九、应用场景一、 集成学习...原创 2019-01-04 21:47:57 · 980 阅读 · 0 评论 -
机器学习算法梳理—线性回归
介绍线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。[1]一、相关概念1.损失函数损失函数(Loss function)是用来估量你...原创 2018-12-09 22:25:21 · 671 阅读 · 0 评论 -
机器学习算法梳理—决策树
一、信息论基础1.信息定义如果待分类的事务可能划分在多个分类之中,则信息定义为:其中,xi 表示第 i 个分类,p(xi) 表示选择第 i 个分类的概率。其中,n 表示分类的数量。2.熵熵定义为信息的期望值。熵是用来衡量一个系统混乱程度的物理量,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。熵值越大,则随机变量的不确定性就越大。假如有变量X,...原创 2018-12-14 17:04:13 · 373 阅读 · 0 评论 -
机器学习算法梳理—逻辑回归
一、逻辑回归由来逻辑回归与线性回归类似,但它不属于回归分析家族(主要为二分类),而属于分类家族。有些人可能想了,能不能直接给线性回归一个阈值,大于阈值属于某一类,小于阈值属于另外一类呢。从而来生成一个二分类。即通过线性回归+阈值。举例子说明:(1)当分类的数据很标准的情况这里我们套用Andrew Ng老师的课件中的例子,下图中X为数据点肿瘤的大小,Y为观测结果是否是恶性肿瘤。通过构建线性...原创 2018-12-12 22:49:20 · 367 阅读 · 0 评论 -
统计学习方法—EM算法及其推广
一、预先概念1.先验概率在贝叶斯统计中,某一不确定量p的先验概率分布是在考虑”观测数据”前,能表达p不确定性的概率分布。它旨在描述这个不确定量的不确定程度,而不是这个不确定量的随机性。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。2.后验概率在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或...原创 2018-11-30 18:44:44 · 1982 阅读 · 0 评论 -
机器学习路线规划
首先,机器学习圈子里分为三层:发明牛逼的模型、算法、理论底层系统搭建,如各种框架学懂1中大神的部分发明,再会使用2中大神搭建的框架,来解决实际业务中的问题,产生商业价值。大部分人属于这里吧!!!是的,我的目标就是成为第三种人!#一、机器学习知识理论小实战:李航的《统计学习方法》+ 《机器学习实战》(周志华的《机器学习》作为工具书)使用库:Sklearn 与 Tens...原创 2018-11-22 12:56:34 · 1768 阅读 · 0 评论 -
机器学习SVM理解过程
#SVM看了好久,算是基本看懂了,没时间写博客,直接贴图,以后就有机会把博客补上在这里插入图片描述原创 2018-11-21 20:45:09 · 290 阅读 · 0 评论 -
特征工程介绍
文章目录1.特征工程是什么2.数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 归一化2.2 特征二值化2.3 独热编码2.4 缺失值计算3.特征选择3.1 Filter(过滤法)3.1.1 方差选择法3.1.2 相关系数法3.2 Wrapper(包装法)3.2.1 递归特征消除法3.3 Embedded(集成法)3.3.1 基于树模型的特征选择法4 降维4.1 主成分...原创 2019-03-28 20:58:04 · 1159 阅读 · 0 评论
分享