
机器学习
文章平均质量分 83
Claire_Bear7
这个作者很懒,什么都没留下…
展开
-
机器学习 之 决策树
今天在看大神总结的决策树部分,记录一下读书笔记:ID3大神是从决策树比较基础的算法ID3讲起的,为了介绍ID3的思想还介绍了奥卡姆剃刀原则(用较少的东西,来完成同样的事情)。ID3也是基于这样的思想:越是小型的决策树,越优于大的决策树。它用信息增益来作为属性的度量,选择分裂后信息增益最大的属性进行分裂,并采用自顶而下的贪婪搜索遍历所有可能的决策树空间。借用大神对ID3算法的总结:ID3采用自顶而下原创 2015-07-04 11:58:16 · 643 阅读 · 0 评论 -
机器学习之正则化
1. The Problem of Overfitting1还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠拟合(under转载 2015-08-02 15:29:31 · 557 阅读 · 0 评论 -
推荐系统总结
个性化程度推荐按照个性化程度从低到高可以分为:普适的/非个性化的 -> 适合一个小组的(组推荐) -> 适合当前活动的 和 持久的。输入输出输入数据主要是评分数据,包括隐式评分和显式评分两种。显式评分就是以分数或星级表示的数据,能直接表示用户的喜好,然而,由于用户往往会忽略或不愿意对之前的选择进行评分,因此,这种评分通常不是很容易获取,使得隐式评分在日常生活中更为普遍。隐式评分就是通过用户的行为(如原创 2015-07-18 17:02:40 · 789 阅读 · 0 评论 -
机器学习 之 Adaboost
今天深入了解了Adaboost(Adaptive boosting),自适应增强算法。它的原理其实很简单:每一个样本都有一个权重,用样本训练出的模型都有一个误差率(错分类样本的权重和),也有一个系数(表示当前弱分类器在最终强分类器的权重)。通过多轮迭代完成对分类模型的构建。每一轮都选取误差率最低的模型作为基本分类器。在每一轮迭代中都增加误分类样本的权值,降低正确分类的样本的权值。加权后的新原创 2015-07-07 15:47:37 · 621 阅读 · 0 评论 -
机器学习 之 各种距离
今天,在看大神的距离度量,被各种距离应用场景的神总结惊呆了,先引用一下镇镇楼: 简单说来,各种“距离”的应用场景简单概括为, 空间:欧氏距离 路径:曼哈顿距离 国际象棋国王:切比雪夫距离 以上三种的统一形式:闵可夫斯基距离 加权:标准化欧氏距离 排除量纲和依存:马氏距离 向量差距:夹角余弦 编码差别:汉明距离 集合近似度:杰卡德类似系数与距离原创 2015-07-06 20:41:27 · 927 阅读 · 0 评论 -
机器学习 之 LDA主题模型
今天终于开始啃LDA了,同时恶补一下概率分布方面的东西。先放上来大神学习LDA的五个步骤: 1. 一个函数:gamma函数 2. 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 3. 一个概念和一个理念:共轭先验和贝叶斯框架 4. 两个模型:pLSA、LDA 5. 一个采样:Gibbs采样LDA(Latent Dirichlet Allocation)全称是原创 2015-07-06 23:24:13 · 8850 阅读 · 1 评论 -
机器学习 之 贝叶斯分类器
今天,学习了贝叶斯分类的相关内容,总结如下:贝叶斯的思考方法在贝叶斯派出现之前,占据主流地位的思考方法是频率派。他们认为,事情发生的频率是一定的(虽然可能算不出来,但是是确定的一个值),然而,样本空间确实不确定的,因此只需要关注样本分布即可。而贝叶斯则认为,参数是随机的(会产生变化),而样本确实固定的,因此需要重点关注参数估计。为了估计参数,就需要先知道参数的无条件分布,也就是说在有样本之前,参数是原创 2015-07-05 12:18:52 · 9127 阅读 · 0 评论 -
数据挖掘导论 之 分类
这篇总结一下《数据挖掘导论》中的分类部分。原创 2015-07-01 22:58:49 · 1224 阅读 · 1 评论 -
数据挖掘导论 之 聚类分析
这篇文章对《数据挖掘导论》中聚类分析这部分做一个总结。原创 2015-07-01 16:53:29 · 2478 阅读 · 0 评论 -
机器学习 之 支持向量机
今天在看支持向量机通俗导论,被完全震撼到了,这篇文章就记录下一些总结性的内容,具体的推导还要看原文。原创 2015-07-03 17:01:34 · 733 阅读 · 0 评论 -
谷歌技术"三宝"之MapReduce
江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机学会推荐会议里属于A类。SOSP在单数年举办,而OSDI在双数年举办。那么这篇博客就来介绍一下转载 2015-07-22 10:33:29 · 738 阅读 · 0 评论