
机器学习
文章平均质量分 82
已删除ddd
做一个简单,明亮,快乐的手艺人。
展开
-
训练集 验证集 测试集
通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集、验证集和测试集。机器学习早期,数据集较小,比如一千条数据,一般工程实践上将三者的划分比例定为对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的、泛化能力最佳的0.6:0.2:0.2(训练集:验证集:测试集)。有验证集0.7:0.3 (训练集:测试集)。无验证集模型。随着翻译 2018-02-05 17:48:17 · 1172 阅读 · 0 评论 -
集成学习算法
内容来自国内机器学习大牛周志华《机器学习》一书。集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。典型的集成学习结构如下:通过训练数据产生一组个体学习器,然后使用某种结合策略将个体学习器组结合起来。其中,个体学习器通常由一个现有的学习算法从训练数据中产生,如决策树算法、神经网络算法等。根据个体学习器类型的相同与否将集成分为同质集成和异质集成。同质集成即待集成的个...转载 2018-07-13 17:27:31 · 2511 阅读 · 0 评论 -
学习中防止过拟合的处理方法
原文地址:一只鸟的天空,http://blog.youkuaiyun.com/heyongluoyao8/article/details/49429629防止过拟合的处理方法过拟合 我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当前已产生的数据可以对未来的数据...转载 2018-07-10 20:52:12 · 329 阅读 · 0 评论 -
偏差 方差
原始博客链接When we discuss prediction models, prediction errors can be decomposed into two main subcomponents we care about: error due to "bias" and error due to "variance". There is a tradeoff between a m...转载 2018-07-10 20:03:49 · 351 阅读 · 0 评论 -
交叉验证
交叉验证(Cross Validation)是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据进行分组,一部分做为训练集(training set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。常见的交叉验证方法如下:留出法 Hold-Out Metho...原创 2018-07-10 17:11:33 · 3717 阅读 · 0 评论 -
梯度下降
梯度下降是机器学习中最基本的概念,分为BGD(Batch Gradient Descent)、SGD(Stochastic Gradient Descent)和MBGD(Mini-Batch Gradient Descent)三种。一般线性回归函数的假设函数对应的损失函数下图作为一个二维参数(\theta _{0} ,\theta _{1} )组对应能量函数的可视化图:批量梯度下降BGD机器学习算...原创 2018-07-10 09:44:06 · 434 阅读 · 0 评论 -
朴素贝叶斯 Naive Bayes
数学知识转载 2018-07-03 11:18:39 · 218 阅读 · 0 评论 -
特征工程
https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/原创 2018-07-09 17:58:15 · 208 阅读 · 0 评论 -
OneHot Encoder 和 Label Encoder
为什么要独热编码? 正如上文所言,独热编码(哑变量 dummy variable)是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编...转载 2018-06-29 17:03:28 · 651 阅读 · 0 评论 -
随机森林
1. 算法简介随机森林由LeoBreiman(2001)提出,它通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,森林中的每棵树具有相同的分布...转载 2018-06-29 15:44:18 · 1460 阅读 · 0 评论 -
什么是过拟合
原文链接,纯属笔记过拟合很好理解,今天在知乎上看到eyounx这么解释,挺形象的,大致是这么个说法:在机器学习中,我们提高了在训练数据集上的表现力时,在测试数据集上的表现力反而下降了,这就是过拟合。 过拟合发生的本质原因,是由于监督学习的不适定性。比如我们再学习线性代数时,给出n个线性无关的方程,我们可以解出来n个变量,但是肯定解不出来n+1个变量。在机器学习中,如果数据(对应于方程)远小于模型...转载 2018-02-19 22:54:44 · 838 阅读 · 0 评论 -
图像的上采样(up-sampling)和下采样(down-sampling)
原文地址:http://blog.youkuaiyun.com/majinlei121/article/details/46742339 缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。放大图像(或称为上采样(upsampling)或图像插值(interpolating))转载 2018-02-06 21:04:21 · 6576 阅读 · 0 评论 -
随机森林总结
1. 什么是随机森林?随机森林是一种多功能的机器学习算法,能够执行回归和分类的任务。同时,它也是一种数据降维手段,用于处理缺失值、异常值以及其他数据探索中的重要步骤,并取得了不错的成效。另外,它还担任了集成学习中的重要方法,在将几个低效模型整合为一个高效模型时大显身手。在随机森林中,我们将生成很多的决策树,并不像在CART模型里一样只生成唯一的树。当在基于某些属性对一个新的对象进行分类判别时,随机...翻译 2018-07-07 23:56:58 · 1303 阅读 · 0 评论