
机器学习
阴天了
哈哈哈哈哈
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习】特征选择(Feature Selection)方法汇总
传送门转载 2020-08-25 13:15:27 · 1765 阅读 · 0 评论 -
模型评价指标
传送门转载 2020-06-27 23:04:21 · 340 阅读 · 0 评论 -
LightGBM代码实现
from __future__ import print_functionimport lightgbm as lgbimport sklearnimport numpyimport hyperoptfrom hyperopt import hp, fmin, tpe, STATUS_OK, Trialsimport coloramaimport numpy as npN_HYP...原创 2020-01-20 17:01:41 · 1196 阅读 · 0 评论 -
朴素贝叶斯理论+代码实现
朴素贝叶斯理论1、相关概念(生成模型、判别模型)1. 相关概念2、先验概率、条件概率3、贝叶斯决策理论3. 贝叶斯决策理论4、贝叶斯定理公式极大似然估计朴素贝叶斯分类器5、极值问题情况下的每个类的分类概率6、下溢问题如何解决7、零概率问题如何解决7. 零概率问题如何解决?8、sklearn参数详解8. sklearn参数详解9、优缺点1、相关概念(生成模型、判别模型) 编号 色泽...原创 2020-01-20 16:52:54 · 739 阅读 · 0 评论 -
几句话让你明白什么是Stacking模型
模型融合作为kaggle等比赛的提分方法,你不知道可就落伍了,对于网上的大部分讲解个人看法是把一个简单的问题说的复杂了,反而不好理解,所以本文将通过简短的几句话讲述一下Stacking原理,文章最后附上kaggle对Stacking的一个案例,这样你就会完全掌握了,好的,下面开始Staching原理这里假设你的训练集有10000条,测试集有2500条,并且基学习器有10个(这个是你自己设定的)...原创 2019-08-02 16:34:27 · 1560 阅读 · 0 评论 -
聚类算法--无监督学习
1、相关概念无监督学习:无监督学习是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。无监督学习的主要运用包含:聚类分析、关系规则、维度缩减。它是监督式学习和强化学习等策略之外的一种选择。 一个常见的无监督学习是数据聚类。在人工神经网络中,生成对抗网络、自组织映射和适应性共振理论则是最常用的非监督式学习。聚类:聚类是一种无监督学习。聚类是把相似的对象通过静...原创 2020-01-18 21:02:05 · 3763 阅读 · 0 评论 -
特征工程
本文中使用sklearn中的IRIS(鸢尾花)数据集来对特征处理功能进行说明。IRIS数据集由Fisher在1936年整理,包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米。目标值为鸢尾花的分类(Iris Setosa(山鸢尾)、Iris Versico...转载 2020-01-11 16:21:12 · 277 阅读 · 0 评论 -
线性回归
线性回归模型的数学表达式如公示1所示:θ\thetaθ统称为模型的参数,其中θ0\theta_0θ0被称为截距(intercept),θ1\theta_1θ1~θn\theta_nθn被称为系数(coefficient),xix_{i}xi表示数据属性的第i个自变量。我们通过矩阵形式来表示这个方程,如公式2所示:这里xxx和θ\thetaθ都可以被看成一个矩阵,线性回归的任务就是通...原创 2020-02-01 14:26:07 · 190 阅读 · 0 评论 -
回归模型构建实战——赛题分析
本章节通过2019年未来杯高校AI挑战赛的竞赛进行完整的数据建模,其中包括了赛题分析、数据清洗、特种工程、模型选择、模型融合及结果整理6大过程。认识数据(赛题介绍)在构建模型前或者在数据分析前需要对数据有个清楚的认识,无论是对于数据竞赛还是企业项目,对于数据的认识往往是第一位的,这直接影响到最终的结果。本文是利用一个竞赛向大家进行介绍的,故根据比赛背景介绍如何对数据进行认识。了解比赛的背景、知...原创 2020-01-07 16:55:27 · 1083 阅读 · 0 评论 -
机器学习求职
转载来自大羚羊原创 2019-03-02 19:48:19 · 323 阅读 · 0 评论 -
一个例子让你明白什么是CART回归树
关于CART的原理我相信各位都有看过,是不是有些晕呢?没关系,这里我给大家讲个例子,你就理解原来CART回归树生成这么简单啊。。。首先建立一个数据集,为了方便,就取少量数据,如下表,数据的创建仅作参考臂长(m)年龄(岁)体重(kg)身高(m)(标签值)0.55201.10.77301.30.921701.7训练数据中臂长,年龄,体重为...原创 2019-04-01 15:05:07 · 5758 阅读 · 8 评论 -
高级算法梳理之随机森林
本系列将重点续写集成算法,其中包括随机森林(RF)—>GBDT—>XGB—>LightGBM,本文将重点介绍随机森林算法(RF)。1. 什么是集成学习集成学习,有个说法叫“三个臭皮匠,顶一个诸葛亮”,如下图所示,简单来说就是对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。其中个体学习期的选择方法要给予,低...原创 2019-05-12 13:40:11 · 573 阅读 · 0 评论 -
高级算法梳理之GBDT(梯度提升决策树)
上一部分讲了集成程序的概念,其中介绍了了bagging优化的随机森林算法,本文讲述基于Boosting算法的梯度提升决策树算法(GBDT)。1、加法模型我们将f(x)=∑m=1Mβmb(x;γm)f\left ( x \right )=\sum_{m=1}^{M}\beta _{m}b\left ( x;\gamma _{m} \right )f(x)=∑m=1Mβmb(x;γm)定义为...原创 2019-05-13 13:51:43 · 814 阅读 · 0 评论 -
高级算法梳理之xgbBoost
本文将重点解释竞赛圈里的“大杀器”,xgboost算法。本文主要结构包括xgboost内容讲解,以及案例分析。1、XGB算法原理XGB算法有陈天奇博士提出,是GBDT算法的升级版,在效率和方法上都做了改良。此算法的基本思想就是不断地添加树(函数),不断地进行特征分裂来生长一棵树,每次添加一个树,去拟合上次预测的残差(与GBDT一样)。当我们训练完成得到k颗树,我们要预测一个样本的分数,其实就是...原创 2019-05-16 10:21:55 · 3639 阅读 · 0 评论 -
你一定要知道的机器学习基础概念
学了机器学习一年多了,现在转做深度学习,现在想重新梳理一下机器学习的一些基本概念,也是希望自己太久不用再生疏了。参考了一些文章,下面就开始了。分类与回归分类和回归都是监督学习的方法。分类问题(classification):通过训练一个模型,来达到预测定性的目标。回归问题(regression):通过训练一个模型,来达到预测定量的目标。两者都是描述输入(特征)到输出(标签)的关系,回归返...原创 2019-05-16 10:26:18 · 146 阅读 · 0 评论 -
高级算法梳理之LightGBM
LightGBM(Light Gradient Boosting Machine)是微软的开源分布式高性能Gradient Boosting框架,使用决策树的学习算法,下面介绍以下这个框架的优化。1、速度、内存方面的优化许多提升工具使用基于预排序的算法(近似直方图算法)(例如XGBoost中的默认算法)来进行决策树学习。这是一个比较简单的解决方案,但不容易优化。LightGBM使用基于直方图的...转载 2019-05-20 16:26:54 · 1414 阅读 · 0 评论 -
决策树原理以及代码详解
本文为阅读决策树的个人理解所注笔记,仅供参考。学习决策树之前要理解一些概念信息熵(熵、联合熵、条件熵和互信息)决策树学习算法(信息增益、ID3、C4.5和CART)bagging和随机森林。概念1、熵熵:信息的不确定程度。源于信息论热力学第二定律。举个栗子帮助大家理解什么是熵(信息的混乱程度)?假设事件x的发生概率为p(x)p\left ( x \right )p(x),事件y的发生概率为...原创 2019-07-22 16:45:22 · 1431 阅读 · 0 评论 -
逻辑回归
传送门转载 2019-08-02 11:10:05 · 689 阅读 · 0 评论