
机器学习
文章平均质量分 56
CBF
这个作者很懒,什么都没留下…
展开
-
过拟合(overfitting) vs 正则化(regularization)
上面是一个加入了正则化的线性回归(linear regression)的损失方程(loss function)。 Lambda调优 Lambda太小发挥正则化的作用会较小,太大会低估(underfitting)模型。Regularization methods (L1 & L2) 上面正则化方法是Ridge Regression (L2) 。另外一个叫 Lasso Regreesion (L1原创 2015-05-14 19:10:24 · 722 阅读 · 0 评论 -
An overview of machine learning
学习机器学习有两种方法:(1)根据学习策略(learning style)对算法进行分类学习;(2)根据相似的形式或者功能进行学习。根据学习策略进行分类:监督式学习: 例子包括分类问题和回归问题,具体的算法包括LR(logistic regression)、神经网络中的反向传播(BP)(Back Propagation Neural Network)。 非监督式学习:相关性学习(associati翻译 2015-05-16 18:34:24 · 1117 阅读 · 0 评论 -
聚类算法——K-means
算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。原创 2015-05-07 01:19:38 · 703 阅读 · 0 评论 -
聚类算法——K临近(KNN)
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本原创 2015-05-07 01:16:43 · 2583 阅读 · 0 评论 -
聚类算法——主成分分析(PCA)
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成纯数学文章转载 2015-05-05 18:51:17 · 20780 阅读 · 2 评论 -
机器学习——最大熵原理
首先介绍什么是熵。 在信息论中,熵是接收的每条消息中包含的信息的平均量。熵是在1948年由克劳德·艾尔伍德·香农将热力学的熵引入到信息论的,因此它又被称为香农熵。 不确定性函数f满足两个条件是: (1)概率P的单调递降函数; (2)两个独立符号所产生的不确定性应等于各自不确定性之和(可加性),即 f(P1,P2)=f(P1)+f(P2)。 同时满足这两个条件的函数f是对原创 2015-05-05 17:55:54 · 1880 阅读 · 0 评论 -
大数据人才流失: 科研为何陷入困境
无论无处不在的“大数据”概念引起怎样的联想,逐步增长的数据规模确是改变着我们和世界的交互方式。这在工业界、政界、媒体、学术界,几乎任何领域,都是事实。逐渐增强的对大数据进行收集、处理、抽象化,并从中得到启发的能力,拓宽了我们的知识面。然而近年来,科学研究领域加速转变到以数据为核心,是有负面影响的。总结来说就是:称职的科学研究者需要的能力,和称职的工业界从业人员需要的能力,越来越无法区分。具转载 2015-04-17 08:09:47 · 1056 阅读 · 0 评论 -
机器学习之——算法比较与选择
对于一个分类问题该如何选择分类算法呢?当然,如果你真的关心准确性 (accuracy),最好尝试多个算法,每个算法进行参数调优后,进行交叉验证(cross-validation)。但是在解决分类问题时,还是可以参考一些一般性的分类原则的。Naive Bayes 优点:简单,如果条件独立性假设成立,Naive Bayes 分类器会比判别模型(logistic regression)更快的建立,从而原创 2015-05-07 22:09:10 · 1621 阅读 · 0 评论