
模式识别理论
文章平均质量分 71
ffeng271
这个作者很懒,什么都没留下…
展开
-
分类器评价、混淆矩阵与ROC曲线
分类器评价、混淆矩阵与ROC曲线假定你基于贝叶斯理论、神经网络或其他技术建立了自己的分类器。你如何得知自己是否干了一项漂亮的工作呢?你如何得知是否可以把自己的智能模块应用于生产环境中,并获得同行的景仰以及老板的赞赏呢?评估分类器和创建它同样重要,如同在销售会议上,你会听到大量的夸大之词,但没有评估这就是一堆废话。本节的目的在于帮助你评估自己的分类器,如果你是一个开发者或产品经理, 这会转载 2011-11-14 19:36:45 · 6934 阅读 · 0 评论 -
林达华推荐的几本数学书
From: http://dahua.spaces.live.com/default.aspx 1. 线性代数 (Linear Algebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是转载 2011-12-30 11:35:06 · 28127 阅读 · 0 评论 -
AI会议排名_周志华
AI会议排名_周志华 http://blog.sina.com.cn/s/blog_631a4cc40100xl7d.html南京大学周志华教授写的一个很经典的帖子。不过IJCAI能不能算成是no.1的会议有待商榷,不过总体还算客观!说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全.同转载 2011-12-30 17:18:49 · 8349 阅读 · 0 评论 -
C5.0算法学习
C5.0算法学习 C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。C4.5算法是ID3算法的修订版,采用GainRatio来加以改进方转载 2012-03-11 17:32:29 · 6499 阅读 · 1 评论 -
机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting
机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com前言: 本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分转载 2012-03-11 19:25:39 · 925 阅读 · 0 评论 -
决策树模型组合之随机森林与GBDT
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地转载 2012-03-11 19:35:31 · 2759 阅读 · 0 评论 -
线性判别分析(Linear Discriminant Analysis)
线性判别分析(Linear Discriminant Analysis)1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn”和“st转载 2012-03-14 17:16:58 · 38181 阅读 · 3 评论 -
Gradient Boost Decision Tree(模型测试报告)
Treelink模型测试报告1. 什么是Treelink Treelink是阿里集团内部的叫法,其学术上的名称是GBDT(Gradient Boosting Decision Tree,梯度提升决策树)。GBDT是“模型组合+决策树”相关算法的两个基本形式中的一个,另外一个是随机森林(Random Forest),相较于GBDT要简单一些。转载 2012-03-16 11:52:25 · 5972 阅读 · 0 评论 -
online random forest
传统的SVM和adaboost都是batch mode learning. 所谓的batch mode learning, 简单说,就是所有的训练数据都是available的(或则说所有训练数据都已经在内存中)。这种方法主要有2个缺点:1) 有时候数据量太大,在内存中放不下,处理起来不方便2) 由于应用环境限制,有时候无法在训练之前得到所有训练数据而Online lea转载 2012-03-16 13:03:05 · 2310 阅读 · 0 评论