
机器学习
qmys
这个作者很懒,什么都没留下…
展开
-
机器学习实战(一):K-近邻算法
机器学习实战(一):K-近邻算法一、K-近邻算法概述1、工作原理存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处...原创 2019-02-09 11:34:44 · 618 阅读 · 0 评论 -
机器学习笔记 —— 回归
import pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import Lasso, Ridgefro...原创 2019-07-21 16:16:42 · 160 阅读 · 0 评论 -
使用sklearn进行数据挖掘
文章目录1. 数据挖掘步骤2. 并行处理3. 流水线处理4.自动化调参5.持久化1. 数据挖掘步骤使用sklearn优雅地进行数据挖掘数据采集,数据分析,特征工程,训练模型,模型评估包类说明sklearn.perprocessingStandardScaler标准化sklearn.perprocessingMinMaxScaler区间缩放skle...转载 2019-07-20 10:28:46 · 571 阅读 · 0 评论 -
机器学习数学基础笔记
文章目录高数线性代数概率论与数理统计凸优化高数线性代数概率论与数理统计凸优化原创 2019-07-19 13:01:05 · 432 阅读 · 6 评论 -
特征工程
文章目录1.特征工程2.数据预处理2.1 无量纲化2.2 对定量特征二值化2.3 对定性特征哑编码2.4 缺失值计算2.5 数据变换3.特征选择3.1 Filter3.2 Wrapper3.3 Embedded4 降维4.1 主成分分析法(PCA)4.2 线性判别分析法(LDA)1.特征工程数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已sklearn中的IRIS(鸢尾花)...转载 2019-07-18 15:15:23 · 468 阅读 · 0 评论 -
统计学习方法代码实现一 —— 最小二乘法
最小二乘法拟合曲线用目标函数y=sin2πx, 加上一个正态分布的噪音干扰,用多项式去拟合【例1.1 11页】import numpy as npimport scipy as spfrom scipy.optimize import leastsqimport matplotlib.pyplot as plt%matplotlib inline# 目标函数def real_fu...原创 2019-07-15 14:56:01 · 685 阅读 · 1 评论 -
机器学习高级算法梳理三 —— XGBoost
文章目录一、泰勒公式二、CART三、模型学习四、算法原理一、泰勒公式泰勒公式:一个用函数在某点的信息描述其附近取值的公式,其初衷是用多项式来近似表示函数在某点周围的情况比如:exe^xex在x=0处的展开:ex=∑n=0∞xnn!e^x = \sum_{n=0}^{\infty} \frac{x^n}{n!}ex=∑n=0∞n!xn实际函数值和多项式的偏差称为泰勒公式的余项对于一般...原创 2019-05-17 10:10:39 · 586 阅读 · 0 评论 -
机器学习高级算法梳理一 ——集成学习
集成学习文章目录集成学习一、集成学习简介二、BoostingAdaBoost算法梳理三、Bagging四、随机森林五、结合策略六、sklearn实现Adaboost七、应用场景一、集成学习简介1、概念通过构建并结合多个学习器来完成学习任务,即合并多个模型来提升机器学习性能个体学习器:由一个现有的学习算法从训练数据产生,亦称基学习器。2、集成学习方法串行集成方法:串行集成的基本动机是...原创 2019-05-12 09:31:07 · 1289 阅读 · 0 评论 -
机器学习高级算法梳理四 —— LightGBM
文章目录一、lightGBM简介二、LightGBNM起源三、GOSS(基于梯度的单边采样)四、EFB(互斥特征捆绑)五、histogram VS pre-sorted六、leaf-wise VS level-wise七、特征并行和数据并行八、顺序梯度访问九、支持类别特征十、sklearn参数一、lightGBM简介lightGBM包含两个关键点:light即轻量级,GBM 梯度提升机Li...原创 2019-05-20 09:35:50 · 6114 阅读 · 0 评论 -
机器学习高级算法梳理二 —— GBDT
文章目录GBDT一、前向分布算法二、负梯度拟合三、损失函数四、回归五、二分类、多分类六、正则化七、优缺点八、sklearn参数九、应用场景GBDTGBDT概述GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost,我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是...原创 2019-05-14 15:19:04 · 847 阅读 · 0 评论 -
机器学习实战(五):逻辑回归实战
从疝气病症状预测病马的死亡率1、实战背景使用Logistic回归来预测患疝气病的马的存活问题,数据包含了368个样本和28个特征;除了部分指标主观和难以测量外,该数据还存在一个问题,数据集中有30%的值是缺失的。如何处理数据集中的数据缺失问题,然后再利用Logistic回归和随机梯度上升算法来预测病马的生死。2、准备数据解决数据缺失问题的可选方法:1.使用可用特征的均值来填补缺失值;2...原创 2019-02-14 12:26:04 · 2301 阅读 · 0 评论 -
机器学习实战(四):逻辑回归
一、概述1、Logistic回归假设现在有一些数据点,我们利用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作为回归Logistic回归是分类方法,利用的是Sigmoid函数阈值在[0,1]这个特性。Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。2、sigmoid函数如果我们有合适的参数列向量θ([θ0,θ1,…θ...原创 2019-02-13 20:50:40 · 1793 阅读 · 1 评论 -
机器学习实战(三):朴素贝叶斯
一、概述1、什么是朴素贝叶斯算法朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。2、优点简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。3、概率公式贝叶斯推断P(A):先验概率(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。P(A|B):后验概率(Post...原创 2019-02-12 18:24:11 · 3217 阅读 · 1 评论 -
机器学习实战(二):决策树
机器学习实战(二):决策树一、决策树概述1、决策树做预测需要以下过程:收集数据:比如想构建一个相亲系统,我们可以从媒婆那里,或者通过采访相亲对象获取数据。根据他们考虑的因素和最终的选择结果,就可以得到一些供我们利用的数据了。准备数据:收集完的数据,我们要进行整理,将这些所有收集的信息按照一定规则整理出来,并排版,方便我们进行后续处理。分析数据:可以使用任何方法,决策树构造完成之后,我们...原创 2019-02-12 12:51:35 · 1403 阅读 · 0 评论 -
机器学习笔记 ——决策树和随机森林
DecisionTreeimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn import treefrom sklearn.tree import DecisionTreeClassifierfrom sklear...原创 2019-07-22 20:49:07 · 314 阅读 · 0 评论