
机器学习
文章平均质量分 97
瑟瑟发抖的菜鸡望
机器学习爱好者
展开
-
LASSO与redge回归区别 L1 L2范数之间的区别
转载自:http://blog.youkuaiyun.com/sinat_26917383/article/details/52092040一、正则化背景监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练转载 2017-07-10 19:55:58 · 1852 阅读 · 0 评论 -
1.6. 最邻近算法
最邻近法 主要是一种非监督或基于临近的监督学习方法. 非监督最邻近法是许多其他学习算法的基础,特别是流行学习方法及谱聚类方法. 基于临近的监督分类主要在一下两方面具有优势: 具有离散标签数据的`分类`和 连续标签数据的`回归`..The principle behind nearest neighbor methods is to find a predefined number of转载 2017-08-07 18:18:55 · 9969 阅读 · 0 评论 -
1.7. 高斯过程(Gaussian Processes)
针对机器学习的高斯过程(Gaussian Processes for Machine Learning,即 GPML) 是一个通用的监督学习方法,主要被设计用来解决 回归 问题。 它也可以扩展为 概率分类(probabilistic classification),但是在当前的实现中,这只是 回归 练习的一个后续处理。GPML的优势如下:预测是对观察值的插值(至少在普通相关模型转载 2017-08-07 19:54:37 · 25398 阅读 · 1 评论 -
1.9. 朴素贝叶斯
1.9. 朴素贝叶斯朴素贝叶斯方法是一系列有监督学习的方法,这些方法基于对贝叶斯理论的应用,即简单(naive)的假设 每对特征之间都相互独立。给定类变量 (这里一个样本仅属于一类) 和一个相互独立的特征向量 到 ,贝叶斯定理可得到如下关系:使用简单(naive)的假设-每对特征之间都相互独立:对于所有 ,这个关系式可以化简为:转载 2017-08-07 20:22:58 · 640 阅读 · 0 评论 -
朴素贝叶斯原理
转载自:http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分转载 2017-08-07 20:36:33 · 591 阅读 · 0 评论 -
1.10. Decision Trees
1.10. Decision TreesDecision Trees (DTs) are a non-parametric supervised learning method used for classification and regression. The goal is to create a model that predicts the value of a target转载 2017-08-08 16:44:38 · 860 阅读 · 0 评论 -
决策树原理
转载自:http://www.cnblogs.com/bourneli/archive/2013/03/15/2961568.html算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用转载 2017-08-08 20:16:07 · 1284 阅读 · 0 评论 -
集成学习
转自:http://www.cnblogs.com/wxquare/p/5440664.html集成学习方法 集成学习是机器学习算法中非常强大的工具,有人把它称为机器学习中的“屠龙刀”,非常万能且有效,在各大机器学习、数据挖掘竞赛中使用非常广泛。它的思想非常简单,集合多个模型的能力,达到“三个臭皮匠,赛过诸葛亮”的效果。集成学习中概念是很容易理解的,但转载 2017-08-09 18:16:55 · 436 阅读 · 0 评论 -
梯度树提升算法GBRT
本文由拾毅者发布于http://blog.youkuaiyun.com/dream_angel_z/article/details/48085889,转载请注明出处,如果有问题,请联系:csu.ldw@csu.edu.cnIntroduction决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策转载 2017-08-10 20:42:04 · 2139 阅读 · 0 评论 -
Adaboost
转自:http://blog.youkuaiyun.com/dream_angel_z/article/details/467648451.基于数据集多重抽样的分类器-AdaBoost优点泛化错误率低,易编码,可以应用在大部分分类器上,无需参数调整缺点对离群点敏感适合数据类型数值型和标称型数转载 2017-08-10 20:54:03 · 472 阅读 · 0 评论 -
1.11. 集成方法
1.11. 集成方法集成方法结合不同分类器的预测结果, 这些分类器分别来自于不同的学习算法, 相比于单一分类器以提高分类器的泛化/健壮性。集成方法通常分为两类:在 一般方法 中,方法的原理是使用若干个独立的分类器, 然后取这若干个分类器的平均结果作为集合方法结果。 一般情况下,集成分类器(the combined estimator)通常优于它包含的单个 分类器的效转载 2017-08-10 19:35:19 · 1687 阅读 · 1 评论 -
1.12. Multiclass and multilabel algorithms 多分类多标签算法
1.12. Multiclass and multilabel algorithmsWarning All classifiers in scikit-learn do multiclass classification out-of-the-box. You don’t need to use thesklearn.multiclass module unless y转载 2017-08-11 17:30:15 · 7047 阅读 · 0 评论 -
1.13. 特征选择(Feature selection)
1.13. 特征选择(Feature selection)sklearn.feature_selection 模块中的类能够用于数据集的特征选择/降维,以此来提高预测模型的准确率或改善它们在高维数据集上的表现。1.13.1. 移除低方差的特征(Removing features with low variance)VarianceThreshold 是特征选择中的一项基转载 2017-08-11 17:40:31 · 1673 阅读 · 0 评论 -
scikit-learn数据预处理
4.3. 数据预处理``sklearn.preprocessing``包为用户提供了多个工具函数和类,用于将原始特征转换成更适于项目后期学习的特征表示。4.3.1. 标准化、去均值、方差缩放(variance scaling)数据集的** 标准化 对于在scikit中的大部分机器学习算法来说都是一种 常规要求 ** 。如果单个特征没有或多或少地接近于标准正态分布:**转载 2017-08-11 20:30:08 · 543 阅读 · 0 评论 -
3.1. Cross-validation: 评估 estimator 的性能
1.13. 特征选择(Feature selection)sklearn.feature_selection 模块中的类能够用于数据集的特征选择/降维,以此来提高预测模型的准确率或改善它们在高维数据集上的表现。1.13.1. 移除低方差的特征(Removing features with low variance)VarianceThreshold 是特征选择中的一转载 2017-08-11 21:08:51 · 2352 阅读 · 0 评论 -
jieba分词快速入门 自然语言处理
jieba"结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分转载 2017-09-04 20:28:43 · 1965 阅读 · 0 评论 -
jieba教程
转载自:http://blog.youkuaiyun.com/reims2046/article/details/72869337整体介绍jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐 github:https://github.com/fxsjy/jieba 开源中国地址:http://www.oschina转载 2017-09-04 20:50:28 · 2915 阅读 · 0 评论 -
scikit-learn 1.5. Stochastic Gradient Descent
1.5. 随机梯度下降Stochastic Gradient Descent (SGD) 是一种简单但又非常高效的方式判别式学习方法,比如凸损失函数的线性分类器如Support Vector Machines 和 Logistic Regression. 虽然SGD已经在机器学习社区出现很长时间,但是在近期在大规模机器学习上受到了相当大数量的关注。SGD 已经被成功应用到大规模和稀疏机转载 2017-08-07 17:58:37 · 1382 阅读 · 0 评论 -
scikit-learn 1.4. Support Vector Machines
1.4. Support Vector MachinesSupport vector machines (SVMs) are a set of supervised learning methods used for classification, regression and outliers detection.The advantages of support vecto转载 2017-07-17 17:55:41 · 1093 阅读 · 0 评论 -
最小二乘法理论基础
1.起源“1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星…高斯使用的最小二乘法的原创 2017-07-10 12:21:26 · 3923 阅读 · 1 评论 -
scikit-learn linearRegression 1.1.1 普通最小二乘法
普通线性回归公式:在这个公式中,为权值,有些书籍和文章也称为参数和权重,再线性回归中,通过优化算法求出最佳拟合的w和b(偏值),来进行预测sklaern实例应用:LinearRegression 用系数 :math:w = (w_1,...,w_p) 来拟合一个线性模型, 使得数据集实际观测数据和预测数据(估计值)之间误差平方和最小,这也是最小二乘法的核转载 2017-07-10 10:04:26 · 4117 阅读 · 0 评论 -
scikit-learn linearRegression 1.1.2 岭回归
Ridge 岭回归通过对回归稀疏增加罚项来解决 普通最小二乘法 的一些问题.岭回归系数通过最小化带罚项的残差平方和上述公式中, 是控制模型复杂度的因子(可看做收缩率的大小) : 越大,收缩率越大,那么系数对于共线性的鲁棒性更强一、一般线性回归遇到的问题 在处理复杂的数据的回归问题时,普通的线性回归会遇到一些问转载 2017-07-10 12:35:06 · 977 阅读 · 0 评论 -
scikit-learn linaerRegression 1.1.3 LASSO
Lasso 是一种估计稀疏线性模型的方法.由于它倾向具有少量参数值的情况,对于给定解决方案是相关情况下,有效的减少了变量数量。 因此,Lasso及其变种是压缩感知(压缩采样)的基础。在约束条件下,它可以回复一组非零精确的权重系数(参考Compressive sensing: tomography reconstruction with L1 prior (Lasso)).用数学形式转载 2017-07-10 20:00:26 · 1011 阅读 · 0 评论 -
贝叶斯岭回归理论
转自:http://blog.youkuaiyun.com/dark_scope/article/details/8558244.引入 贝叶斯线性回归的引入主要是在最大似然估计中很难决定模型的复杂程度,ridge回归加入的惩罚参数其实也是解决这个问题的,同时可以采用的方法还有对数据进行正规化处理,另一个可以解决此问题的方法就是采用贝叶斯方法。2.参数分布 设参数转载 2017-07-11 23:10:11 · 13277 阅读 · 0 评论 -
scikit-learn linearRegression 1.1.9 贝叶斯回归
1.1.9. 贝叶斯回归可以在估计过程中使用贝叶斯回归技术包含正则化参数:正则化参数不是硬编码设置的而是手动调节适合数据的值可以通过在模型的超参数上引入 uninformative priors`Ridge Regression`_ 中 使用的正则化项等价于在一个参数为 且精度为 的高斯先验下寻找 一个最大的后验的解。而且并不是手动设置 lambda ,而是有可能转载 2017-07-11 23:18:02 · 4662 阅读 · 0 评论 -
逻辑回归基本原理
转自:http://blog.youkuaiyun.com/pakko/article/details/37878837什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式转载 2017-07-11 23:47:36 · 1603 阅读 · 0 评论 -
scikit-learn linearRegression 1.1.10 逻辑回归
逻辑回归形如其名,是一个线性分类模型而不是回归模型。逻辑回归在文献中也称为logit回归、最大熵分类(MaxEnt) 或者 log-linear classifier。 在这个模型中,描述单次可能结果输出概率使用 logistic function 来建模。scikit-learn中逻辑回归的实现为 LogisticRegression 类。它可以拟合含L2或者L1正则化项的多类逻辑回转载 2017-07-11 23:49:36 · 1996 阅读 · 0 评论 -
scikit-learn linearRegression 1.1.11 随机梯度下降
1.5. 随机梯度下降Stochastic Gradient Descent (SGD) 是一种简单但又非常高效的方式判别式学习方法,比如凸损失函数的线性分类器如 Support Vector Machines 和 Logistic Regression. 虽然SGD已经在机器学习社区出现很长时间,但是在近期在大规模机器学习上受到了相当大数量的关注。SGD 已经被成功应用到大规转载 2017-07-12 11:59:40 · 1504 阅读 · 1 评论 -
批量梯度下降和随机梯度下降
转自:http://www.cnblogs.com/walccott/p/4957098.html梯度下降与随机梯度下降梯度下降法先随机给出参数的一组值,然后更新参数,使每次更新后的结构都能够让损失函数变小,最终达到最小即可。在梯度下降法中,目标函数其实可以看做是参数的函数,因为给出了样本输入和输出值后,目标函数就只剩下参数部分了,这时可以把参数看做是自变量,则目标函数变成参数转载 2017-07-12 12:10:59 · 3689 阅读 · 0 评论 -
感知机Perception原理
转载自:http://blog.youkuaiyun.com/dream_angel_z/article/details/48915561在机器学习中,感知机(perceptron)是二分类的线性分类模型,属于监督学习算法。输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面,为求得超平面导入了基于误分类的损失函数,利用转载 2017-07-12 12:27:54 · 925 阅读 · 0 评论 -
线性判别分析LDA
1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的转载 2017-07-14 00:03:09 · 355 阅读 · 0 评论 -
线性与二次判别分析
转自:http://www.dataivy.cn/blog/%E4%BA%8C%E6%AC%A1%E5%88%A4%E5%88%AB%E5%88%86%E6%9E%90quadratic-discriminant-analysis_qda/二次判别分析Quadratic Discriminant Analysis(QDA)与线性判别分析类似,二次判别分析是另外一种线性判别分转载 2017-07-14 00:24:12 · 10623 阅读 · 0 评论 -
scikit-learn linearRegression 1.2 线性与二次判别分析
线性判别分析(LDA) (discriminant_analysis.LinearDiscriminantAnalysis) 和二次 判别分析(QDA) (discriminant_analysis.QuadraticDiscriminantAnalysis) 是两种经典的 分类器, 正如它们名字所说, 分别带有一个线性决策平面和二次决策平面.这些分类器很吸引人, 因为它们有可以容转载 2017-07-14 00:30:03 · 1128 阅读 · 0 评论 -
核岭回归 Kernel Ridge Regression
转自:http://www.bubuko.com/infodetail-781832.htmlKernel Ridge Regression上次介绍的表示定理告诉我们,如果我们要处理的是有L2的正则项的线性模型,其最优解是数据zn的线性组合。我们可以将这样的线性模型变成Kernel的形式。 既然我们知道这样带有L2-Regularizer的线性回归模型的最佳解的形式,那转载 2017-07-17 17:17:17 · 10696 阅读 · 0 评论 -
scikit-learn 1.3. Kernel ridge regression
核岭回归是结合岭回归(线性最小二乘L2范数正则化)与内核的技巧。因此,它在各自的内核和数据中学习空间中的线性函数。对于非线性核,这对应于原始空间中的非线性函数。学习KernelRidge模式的形成是支持向量回归(SVR)相同。然而,使用不同的损失函数:KRR采用平方误差损失而支持向量回归使用\ε不敏感损失,两者结合L2正则化。相反,SVR,拟合kernelridge可以在封闭的形式完成转载 2017-07-17 17:19:51 · 2419 阅读 · 0 评论 -
支持向量机SVM基本理论
转自:http://www.cnblogs.com/steven-yang/p/5658362.html基本概念SVM - Support Vector Machine。支持向量机,其含义是通过支持向量运算的分类器。其中“机”的意思是机器,可以理解为分类器。什么是支持向量呢?在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持向量。见下图,在一个二维环转载 2017-07-17 17:47:18 · 847 阅读 · 0 评论 -
TF-IDF教程
转自:http://blog.youkuaiyun.com/sangyongjia/article/details/52440063TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次转载 2017-09-04 21:01:24 · 928 阅读 · 0 评论