
Data Mining
文章平均质量分 80
右点点
这个作者很懒,什么都没留下…
展开
-
Data Mining Week2 - L1
Data Mining is really demanding for me...This week the TA held the lecture. I am not going to bitch too much about him, but just organize the notes myself.outline–Naïve Bayesian Cl原创 2013-11-04 02:06:14 · 1535 阅读 · 0 评论 -
Data Mining Week3 - Association Rules & Decision List
关联式规则(gender=male) and (wealth=rich)→ (age=old)BODYHEAD(LHS, “Left-Hand-Side”, antecendent) (RHS, consequent)如果没有body,也可以有default head, the most common value (MCV) 定义SUPPORT: 数据中符合翻译 2013-11-05 11:37:20 · 1230 阅读 · 0 评论 -
Data Mining Week2 - L2 ROC方法二元分
预测准确性:confusion matrix • TP also called “hit”, TN: “correct rejection”• FP: “false alarm”, “type I error”• FN: “miss”, “type II error”rate all based on the actual sums• TP rate = TP/Pos原创 2013-11-04 06:30:45 · 1637 阅读 · 0 评论 -
k Nearest Neighbors 简介
Pdf 来源Western University最近邻居法(KNN算法,又译K-近邻算法)是ML最简单分类的方法之一。需要分类的样本依据k个最邻近的样本分类。K的选择:理论上说如果样本无限多,那么k越大越好。但是这些邻居必须相近。而且,样本怎么可能无限多呢。所以,一般来说kk=1计算效率高,但是超级会被noise影响理论上最佳error会是Bayes rate E* (翻译 2013-11-08 13:24:17 · 1340 阅读 · 0 评论 -
R语言主成分分析——prcomp VS princomp
最简单的主成分分析函数,prcomp 和 princomp 都是自带的函数,不需要额外的包http://strata.uga.edu/software/pdf/pcaTutorial.pdf很好的一个介绍http://gastonsanchez.wordpress.com/2012/06/17/principal-components-analysis-in-r-part-1/很好的一原创 2013-11-23 04:47:01 · 45816 阅读 · 0 评论 -
聚类简介Clustering
什么是聚类Clustering partitions unlabeled data into subsets聚类就是把数据分入子集,但是这些子集一开始不像分类Classification一样有确定的类。但是聚类和分类还是很类似的,所以聚类也叫无监督的分类unsupervised classification。也就是说,一开始没有确定的类属(supervised),分完才知道。这些得翻译 2013-12-03 01:42:35 · 2420 阅读 · 0 评论