
机器学习
文章平均质量分 77
NeilGY
这个作者很懒,什么都没留下…
展开
-
机器学习中数据清洗和特征选择总结
一.数据清洗1.预处理:理解数据及数据特征(很重要)2.异常样本数据:将时间、日期、数值等转为统一格式 去除文本中不需要的特殊字符等 去除内容与字段不对应的情况,如:字段为性别,描述为姓名 数据去重 替换不合理值 核验多数据源数据关联时是否正确3.采样:数据不均衡问题:设置损失函数权重,少数类别增大损失系数 下采样/欠采样:从多数类别数据中随机抽取样本数据,使...原创 2019-08-03 12:10:54 · 1303 阅读 · 0 评论 -
机器学习中各种熵
本文的目录组织如下:【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联合熵、条件熵、互信息的关系【7】交叉熵【8】相对熵(KL散度)【9】熵在机器学习中的应用(贝叶斯、决策树、分类)1. 自信息:对事件不确定性的度量。自信息公式事件的不确定性越大(概率 pi 越小),自信息 I(pi) 越大。比如买彩票,中彩票的...转载 2019-08-02 17:32:41 · 1190 阅读 · 0 评论 -
HMM详解
什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间...转载 2019-02-25 09:38:08 · 1420 阅读 · 0 评论 -
贝叶斯算法总结
1. 朴素贝叶斯是什么 依据《统计学方法》上介绍:朴素贝叶斯法(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 xx ,利用贝叶斯定理求出后验概率最大的输出 yy 。 可能读完上面这段话仍旧没办法理解朴素贝叶斯法到底是什么,又是怎样进行分类的。下面我尽...转载 2019-02-25 00:40:59 · 2307 阅读 · 0 评论 -
集成学习总结
集成算法总结:1.思想:将若干个弱学习器组合之后产生一个新学习器,弱学习器的准确率需在0.5以上。2.算法分类:1.Bagging.2.Boosting.3.Stacking3.算法简介:Bagging: 通过随机采样,从训练集中采集固定个数的样本,没采集一次都将样本放回,也就是说之前采集到的样本有可能被继续采集到。然后选择出T个数据集分别训练T个模型的集成技术。随机森林(RF):(随机森林在构...原创 2018-09-21 16:44:39 · 788 阅读 · 0 评论 -
回归算法总结
回归算法:回归是用于估计两种变量之间关系的统计过程。1).线性回归:所获取的结果值是连续的。LinearRegression 1.岭回归(Ridge),L2正则(平方) 2.Loss回归,L1正则(绝对值) 3.Elastic Net回归,弹性网络算法(同时使用L1和L2) 4.参数求解方式:1.最小二乘法,2.梯度下降 5.数据欠拟合问题:1.算法学习能力比较弱,...原创 2018-09-14 16:12:09 · 1212 阅读 · 0 评论 -
SVM算法总结
SVM1. 算法概念支持向量机(Support Vector Machine, SVM)从数据中找出一个数据的分割超平面,将两个类别的数据完全分割开,并且在模型构建的过程中,保证分割区间最大化。1.线性可分(Linearly Separable):在数据集中,如果可以找出一个超平面,将两组数据分开,那么这个数据集叫做线性可分数据。2.线性不可分(Linear Inseparable):...原创 2018-09-18 16:51:32 · 5348 阅读 · 0 评论 -
决策树算法总结
决策树学习三个过程:1.特征选择。2.构建决策树。3.剪枝在学习决策树算法时首先需要知道一些基本概念:信息 这个是熵和信息增益的基础概念,是对一个抽象事物的命名,无论用不用‘信息’来命名这种抽象事物,或者用其他名称来命名这种抽象事物,这种抽象事物是客观存在的。如果带分类的事物集合可以划分为多个类别当中,则某个类(xi)的信息(量)定义如下: I(x)用来表...原创 2018-09-17 17:46:52 · 13144 阅读 · 1 评论 -
KNN算法总结
KNN算法整理---------------------------------------- -1. 用最相似的样本的目标属性的值来作为当前预测样本的目标属性值 -2. 分类(离散)、回归(连续) 分类:使用相似样本的多数类别作为预测样本的目标属性值 回归:将相似样本的y值的均值作为预测样本的目标属性值 -3. a. 从训练数据中找回和预测样本最相似度的...原创 2018-09-17 14:15:29 · 558 阅读 · 0 评论