机器学习算法的直觉
就叫温华啦
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AdaBoost 算法的直觉
简单了解一下Adaboost算法在干嘛,先不去管数学公式之类的东西。 正常有一个训练集, 然后然们使用了某种算法A,按照该算法的规则最终训练好了该算法,就能拿去使用了,无论是分类也好、回归也好,就是拿去使用了(这边先不考虑验证集、测试集这东西)。所以说, 数据 在某种方式下,导出了一个 机器学习模型。 然后我们看Adaboost的思想:在假设下(基学习器的误差...原创 2018-11-14 14:30:35 · 224 阅读 · 0 评论 -
特征工程中如何进行 :特征抽取 与 特征选择
读《美团机器学习实践》,哇,是个好东西。什么是特征抽取呢?我是从时间信息中明白的,那也就从时间信息中说明吧。数据中,一个时间特征可能会表述为日期(2019/05/12 12:11:13)、时间戳(1494391009)等形式,但我们一般不会直接把这个特征交给模型,让它去找这个特征怎样怎样才是最有用的。我们可以加入一些先验信息,比如,依照我们要构建的模型,我们从时间信息中...原创 2019-03-04 15:00:02 · 1000 阅读 · 0 评论 -
集成学习之 如何进行多样性增强
众所周知,对于集成学习的基学习器而言,他们的差异性越大,集成之后的效果就越好,那么,我们怎么增强不同模型的多样性呢?1.样本扰动:比如Bagging中的自助法就是了,由于生成的不同数据集间有一定的不同,所以导致训练出来的基学习器也有一定的不同。(对于linear、svm、naive_bayes、knn这些对扰动不敏感的基学习算法效果不大)2.输入扰动:对于那些有非常多的属性,且有大量...原创 2019-03-06 12:50:57 · 3110 阅读 · 0 评论 -
降维 之 流形学习 降维法
之前总觉得流形是一个很奇特的东西。想不明白是啥,没有具体的概念,到现在才稍微有一些明白。这里分享一些自己的见解。 概念上,流形是 在局部上与欧氏空间同胚的空间。这句话我的理解是,在局部里,计算两样本之间的距离,高维和低维是一样能用欧式距离来计算的。 这就给降维带来 了启发: 当低维流形嵌入到高维空间时,虽然高维空间异常复杂,但是在局部还是有欧氏空间的性质,因此 ,可以在局部...原创 2018-12-01 16:45:55 · 1659 阅读 · 0 评论 -
聚类 之 层次聚类 的直觉 (AGNES算法)
这个层次聚类算法AGNES就很简单了, 看书就能看明白,估计没人搜索吧,哈哈。 最主要的是定义两个簇之间的距离:1.可以是两个簇之间 的最大距离: 两个簇 的 两个样本之间的距离最远 时的距离2.可以是两个簇之间 的最小距离:两个簇 的 两个样本之间的距离最短时的距离3.可以是两个簇之间 的平均距离:两个簇所有样本间距离的均值 取层次聚类 - 自底向上聚类策...原创 2018-11-28 15:40:21 · 1617 阅读 · 0 评论 -
聚类 之 密度聚类的 直觉 (DBSCAN算法)
采用不同方式表征样本分布的紧密程度,可设计出不同的密度聚类算法。 这里说的是DBSCAN算法。关于密度聚类,有两个概念需要明白, 什么是核心对象,什么是簇?或者说,核心对象和簇都长什么样子? 我们先说概念,然后再看图。 核心对象是什么呢?在算法开始前,我们会人为的定义两个超参数,一个超参数定义距离原创 2018-11-28 11:51:58 · 379 阅读 · 0 评论 -
降维 之 MDS算法 的直觉
为什么 需要降维呢? 因为啊,在高维空间中,如果要满足密采样,那么需要的样本数就太多了,惹不起惹不起,(比如,1维时填充单位空间需要三个样本, 2维时填充单位空间需要九个样本,3维时需要27个。。。。。。那么 100维就需要3^100个样本,这就太可怕了。)另外,高维空间中的距离是特别奇怪的。 为什么能降维呢?这是因为在很多时候,人们观察或收集到的很多样本虽是高维的,但...原创 2018-11-30 14:46:49 · 2073 阅读 · 1 评论 -
聚类 之 高斯混合聚类的 直觉
什么是高斯混合聚类呢? 我们要搞明白一个未知的懂事是什么, 首先,我们先要明确 它能干什么。明显,高斯混合聚类 ,其效果是聚类。其与K均值、LVQ用原型向量来刻画聚类结构不同,高斯混合聚类采用概率模型来表达聚类原型。ok,我知道可能有人不明白这句话在说什么,所以我翻译一下:K-means,和LVQ都是在开始随机的取某几个点作为聚类中心的,然后随着算法的进行 聚类中心随之移动...原创 2018-11-27 11:41:05 · 446 阅读 · 0 评论 -
特征选择时 的 特征子集选择和特征评价
这篇文章想讲述的是如何做 特征选择。 首先,什么是特征选择呢? 为什么要做它呢?特征选择就是我们从一开始的特征集合中找一个特征子集,在这个特征子集中,学习算法能比在原特征集合中学得更好。 那么,我们该如何进行特征选择呢?(贪心的方式在找,如果不用贪心的方式,而去遍历所有属性组合的话,当属性多的适合,会遭遇到组合爆炸的问题,现阶段的算力是严重不足啊) 分为两个步骤: ...原创 2018-12-02 11:34:58 · 4417 阅读 · 0 评论 -
聚类 之 K均值(K-means) 和 学习向量量化(LVQ) 的直觉
K均值(K-means) 和 学习向量量化(LVQ)分别是怎么移动聚类中心的? 先说说k-means把:1.k-means在 所有样本中 随机取了 某几个样本点作为数据中心(初始化)2.遍历所有的样本, 计算每一个样本到达聚类中心的距离(这里的距离度量要自己选择),然后其中选择最近的那个聚类中心,此时,在当前这轮遍历时间内,这个样本就归这个聚类中心,3。在2结束后,...原创 2018-11-20 14:18:01 · 2208 阅读 · 0 评论 -
为什么说 交叉验证能 防止过拟合 呢?
为什么说交叉验证能 防止过拟合呢?交叉验证 把 原始数据分成可 K 块 ,用每次用其中的 K-1块训练, 用 余下的 一块进行预测,这样做,让算法在训练的时候没有接触过 余下来的那一块数据子集中的内容,这样,在对 余下这一块进行预测时,算法只能靠他学会的本领来进行预测---------> 就是用学到的参数来预测。但是,算法还是有超参数的:我们每次都需要主观选择超参数给算...原创 2018-11-15 11:12:32 · 7540 阅读 · 4 评论 -
bagging 与 随机森林的 直觉
bagging 是个啥?bagging 是集成策略的一种,通过 人多力量大的道理(哦 ,不。)。通过 各个基学习器的误差相互独立的假设 ,我们知道,基学习器越多,我们集成后的算法能力就越强大。 bagging的差异性是个啥?(所以啊,我们看看和boost 不同的、获得其 基学习器 差异性的方法吧:)训练集一个m个样本,我们原创 2018-11-15 10:26:08 · 289 阅读 · 0 评论 -
梯度下降
什么是梯度下降呢?梯度下降是一种参数优化的方法,他的使用对象是一个函数,如果函数是凸的,且不考虑计算资源的耗费,是可以得到最优解的。如果函数非凸,则要多次随机初始化参数,防止陷入局部最优解。除了梯度下降,还有什么找函数最优解的方法吗?1.最小二乘法 -> 获得解析解 。 这种方法在数据集比较小的时候用,当数据集大的时候用其他的方法,因为数据集大的时候对矩阵求逆 耗费时间。...原创 2019-01-25 22:45:07 · 259 阅读 · 0 评论
分享