
机器学习
文章平均质量分 80
糖甜甜甜74
个人公众号:DataGo数据狗
展开
-
kNN算法实践
1 算法介绍总的来说,入门的第一个机器学习算法是k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-原创 2017-12-21 10:36:58 · 496 阅读 · 0 评论 -
特征工程
特征工程目录1 特征工程是什么?2 特征清洗3 数据预处理 3.1 无量纲化 3.1.1 标准化 3.1.2 归一化(区间缩放) 3.1.3 正则化 3.2 对定量特征二值化 3.3 对定性特征哑编码 3.4 缺失值计算 3.5 生成多项式特征和自定义转换 4 特征选择 4.1 Filter 4.1.1 方差选择法原创 2017-12-20 17:30:52 · 1091 阅读 · 0 评论 -
梯度下降法及其Python实现
梯度下降法及其Python实现基本介绍梯度下降法(gradient descent),又名最速下降法(steepest descent)是求解无约束最优化问题最常用的方法,它是一种迭代方法,每一步主要的操作是求解目标函数的梯度向量,将当前位置的负梯度方向作为搜索方向。梯度下降法特点:越接近目标值,步长越小,下降速度越慢。下面将通过公式来说明梯度下降法。建立模型为拟合函数h(θ)h(θ) h(θ)=原创 2017-12-21 11:02:01 · 2031 阅读 · 0 评论 -
特征工程之分箱
一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法。分箱的重要性及其优势离散特征的增加和减少都很容易,易于模型的快速迭代;稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,原创 2017-12-23 21:13:39 · 18942 阅读 · 0 评论 -
机器学习实战之朴素贝叶斯
机器学习实战之朴素贝叶斯朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。1.1 简介贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率:P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概原创 2018-01-02 11:26:53 · 590 阅读 · 0 评论 -
机器学习实战之决策树
简介:决策树是一类常见的机器学习方法,以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新数据进行分类,比如通过一组数据通过模型训练得到以下的决策树: 理论:决策树学习的关键是如何选择最优划分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。1、信息熵熵定义为信息的期望值,在明晰这个概念之前,我们必须知道信息的定义。如原创 2017-12-29 11:58:49 · 567 阅读 · 0 评论 -
Python进行数据分析探索
1.1 导入相应的包和数据%matplotlib inline#在jupyter里面需要加入此命令显示图import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import RANSACRegressor, LinearRegression, TheilSenRegressorfrom sklea原创 2018-04-22 14:59:14 · 2422 阅读 · 2 评论