
机器学习
文章平均质量分 81
MatthrewX
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Understanding the Bias-Variance Tradeoff
1. Bias and VarianceUnderstanding how different sources of error lead to bias and variance helps us improve the data fitting process resulting in more accurate models. We define bias and variance转载 2014-03-05 05:36:48 · 942 阅读 · 0 评论 -
数据挖掘十大经典算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,转载 2015-02-17 01:23:27 · 610 阅读 · 0 评论 -
C4.5算法详解(至今见过写的最好的算法详解)
C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点:用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率。在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可转载 2015-02-09 09:33:23 · 1020 阅读 · 0 评论 -
Coursera Machine Learning 8.2: Principal Component Analysis
降维——Dimensionality Reduction===============================(一)、为什么要降维?(二)、主成分分析Principal Component Analysis (PCA) (三)、PCA 算法流程(四)、从压缩数据中恢复原数据(五)、怎样决定降维个数/主成分个数(六)、应转载 2014-05-08 09:37:37 · 675 阅读 · 0 评论 -
Coursera Machine Learning Week 8.1: Clustering
第九讲. 聚类——Clustering===============================(一)、什么是无监督学习?(二)、KMeans聚类算法(三)、Cluster问题的(distortion)cost function(四)、如何选择初始化时的类中心(五)、聚类个数的选择=======转载 2014-05-08 02:25:22 · 943 阅读 · 0 评论 -
Coursera Machine Learning Week 7: support vector machines
12转载 2014-05-07 02:27:37 · 1187 阅读 · 0 评论 -
Coursera Machine Learning Week 3.2: Regularization
这一节首先一开始就讲了bias,overfitting的问题。这个问题在statistical learning里也学到,在之前的文章《Cross validation的一点笔记》也有细说。underfit, high bias 都是说这个model doesn't fit the data very well.为了避免overfitting,有两种方法。如果fea原创 2014-04-03 11:34:07 · 756 阅读 · 0 评论 -
Coursera Machine Learning Week 3.1: Logistic Regression
这一周讲的是classification中最基本很简单的Logistic Regression为什么要有Logistic Regression,分类问题其实Linear Regression也可以做,但是做不好。这张图片中可以发现,linear regression是可以分类的。但这张图中不难发现,如果在x坐标很大的地方多一个点,这样linear regression做原创 2014-04-03 07:06:38 · 934 阅读 · 0 评论 -
Coursera Machine Learning Week 1.2: Linear Regression.one variable
regression问题是predict real-valued outputclassification问题是discrete-valued outputlinear regression这是老师的笔记,cost function就是图中的J(西塔1,西塔2),也就是说在training data中,要让真实值和regression后得出的值的差的平方和最小,原创 2014-03-13 11:09:17 · 776 阅读 · 0 评论 -
Coursera Machine Learning Week 1.1: Introduction
Coursera的Machine Learning又开课了,看了看Syllabus,课不算难,但毕竟是招牌课而且Andrew Ng上课很清晰,所以趁此机会学习重新梳理一下ML,顺便练习Matlabweek1.1是介绍:生活中的机器学习:每次你打开google搜索,你能搜到你想要的东西,搜索到的东西也会有优先排序。你在google打字,下面会出 现可能你需要搜索的内容推荐。原创 2014-03-13 07:33:22 · 1093 阅读 · 0 评论 -
Cross validation的一点笔记
1. Our data is a sample,and what we need is to resample, Cross-validationis a resampling method.The lower the training error, the test error can get higherif we over fit.Model Complexity:原创 2014-03-05 11:08:22 · 5554 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的转载 2015-01-22 21:52:19 · 401 阅读 · 0 评论