自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 特征工程

常用的特征工程方法1、特征工程是什么有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,目前认为特征工程包括以下方面:特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理、特征选择、降维...

2019-11-14 20:55:25 476

原创 ID3算法

1)信息熵:假如一个随机变量X的取值为:每一种取到的概率分别是:那么X的熵定义为:意思是一个变量的变化情况可能越多,那么它携带的信息量就越大,信息熵值越大,该系统越不稳定,存在的不定因素就越多。对于分类系统来说,类别C是变量,它的取值是:而每一个类别出现的概率分别是而这里的就是类别的总数,此时分类系统的熵就可以表示为以上就是信息熵的定义,接下来介绍信息增益。2)、信息...

2019-11-12 20:21:11 1209

原创 最大似然,最小二乘,最大后验

最大似然,最小二乘,最大后验最大似然估计是需要有分布假设的,属于参数统计,如果连分布函数都不知道,又怎么能列出似然函数呢? 而最小二乘法则没有这个假设。 二者的相同之处是都把估计问题变成了最优化问题。但是最小二乘法是一个凸优化问题,最大似然估计不一定是。那么为啥有这么多人把MLE和OLSE搞混,因为当likelihood用于gaussian的时候,由于gaussian kernel里有个类似于...

2019-11-11 20:59:50 614

原创 机器学习分类模型效果评估指标

机器学习分类模型效果评估指标:准确率、精确率、召回率、F1​-score1、准确率、精确率、召回率、F1​-score我们以分类算法为例,假设班里有50个同学,其中男生30个,女生20个,我们根据身高、体重、头发长度、声音分贝等等特征,想找到所有女生,比如已经有这样一个分类器了,得到结果如下:这里我们是要找到所有女同学,故把女同学作为正样本(positive),男同学作为负样本(Negat...

2019-11-11 20:44:24 699

原创 离散化的原因与趋势

一、离散化原因定义数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:算法需要比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。离散化的特征相对于连续型特征更易理解,...

2019-11-11 20:32:19 698

原创 变量编码方式

类别特征和数值特征机器学习模型只能处理数字。数值(连续、定量)变量是可以在有限或无限区间内取任何值的变量,它们可以很自然地用数字表示,所以可以在模型中直接使用。原始类别变量通常以字符串的形式存在,在传入模型之前需要变换。类别特征编码类别编码的两个基本方法是独热编码(onehot encoding)和标签编码(label encoding)。独热编码可以通过pandas.get_dummies...

2019-11-11 20:26:56 1410

原创 特征归一化优点

什么是特征归一化?数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。特征归一化的好处?(1)提升收敛速度对于线性model来说,数据归一化后,最优解的寻优过程...

2019-11-11 20:18:41 1514

原创 交叉验证

交叉验证应用:交叉验证(Cross-validation)主要用于建模应用中,例如PCR 、PLS 回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。定义:交叉验证(Cross Validation),有的时候也称作循环估计(Rotation Estimation),是一种统计学上将数据样本切割成较...

2019-11-11 20:14:42 605

原创 机器学习(Machine Learning)基础

机器学习(Machine Learning)基础概念及用途 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。步骤就是根据历史数据训练机器模型,再将新的问题输入这个模型从而预测未知的事件。 我们的日常生活中,很多地方都有涉及到机器学习,比如无人驾驶、人脸识别、语音交互以及时下比较热...

2019-11-05 09:01:46 661

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除