
Data Mining
nomad2
<a href="http://www.fi
展开
-
Choosing cheap software packages to get started with Data Mining
From: http://blog.samibadawi.com/2010/04/r-rapidminer-statistica-ssas-or-weka.htmlYou have a data mining problem and you want to try to solve it with a data mining software package. The most popular转载 2013-03-11 18:57:03 · 1083 阅读 · 0 评论 -
聚类
1. 基于距离的迭代聚类k-means 一个matlab实现: from: http://www.newsmth.net/nForum/article/AI/86245?p=1function label = litekmeans(X, k)n = size(X,2);last = 0;label = ceil(k*rand(1,n)); % random initializati原创 2012-01-08 20:51:29 · 963 阅读 · 0 评论 -
Software for machine learning
From: http://www.cs.ubc.ca/~murphyk/Teaching/CS540_Fall05/software.htmlSoftware for machine learningThe programming language for CS540 will be Matlab. You will be required to learn this, if yo转载 2011-12-15 11:13:43 · 985 阅读 · 0 评论 -
机器学习 13 MDP cont.
Lesson 20.1. POMDP : partially observable Markov decision processes 2. pegasus policy search: A policy search method for large MDPs and POMDPshttp://vorlon.case.edu/~sray/mlrg/pegasus.pdf原创 2011-12-08 21:29:55 · 1175 阅读 · 0 评论 -
核密度估计 Kernel density estimation
简单贝叶斯分类:对于数值属性,如果不服从正态分布,但不知道服从何种分布形式,可以采用核密度估计的方法来进行预测。1. from http://baike.baidu.com/view/3380594.htmkernel density estimation是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(原创 2011-12-18 20:40:03 · 11986 阅读 · 0 评论 -
机器学习 12 MDP variations cont.
Lesson 191. DDP2. Kalman filter and LQG control原创 2011-12-06 20:49:15 · 624 阅读 · 0 评论 -
机器学习 11 MDP variations
Lesson 18.1. state-action rewards2. finite horizon MDPDP algorithm:LQR: linearized quadratic regulation原创 2011-12-05 21:34:35 · 922 阅读 · 0 评论 -
机器学习 8 PCA cont.
机器学习 lesson 15.1. LSI latent semantic indexing文档相似度分析 cos functionsee more: http://ccl.pku.edu.cn/doubtfire/NLP/Artificial_Intelligence/Latent%20Semantic%20Indexing.txt2. SVD single valu原创 2011-11-12 16:42:47 · 1071 阅读 · 0 评论 -
机器学习 7 主成分分析
Principal Components Analysisfrom wiki: http://zh.wikipedia.org/wiki/主成分分析在统计学中,主成分分析(principal components analysis (PCA))是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二原创 2011-11-12 10:58:31 · 1079 阅读 · 0 评论 -
机器学习 6 unsupervised learning
Machine Learning lesson 12 http://v.163.com/movie/2008/1/O/T/M6SGF6VB4_M6SGKGMOT.html1. clustering2. k-means clustering algorithmK-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。3.原创 2011-11-06 18:52:56 · 934 阅读 · 0 评论 -
可信度:评估机器学习结果
1. 分离器对训练集进行分类而得出的误差率并不能很好反映分类器未来的工作性能。2. 当训练和测试数据有限时,衡量一种学习方案使用在某一数据集上的误差率的方法:a. cross-validation 交叉验证 10-foldb. leave-one-out 留一法c. bootstrap 自引导法3. 预测概率a. 二次损失函数b. 信息损失函数4. 计算成本使用原创 2012-01-15 21:23:01 · 2367 阅读 · 0 评论 -
classification rules
1. Criteria for choosing testsThe basic criterion for choosing a test to add to a rule is to find one that covers as many positive examples as possible, while covering as few negative examples as po原创 2012-01-29 19:24:44 · 607 阅读 · 0 评论 -
Extending linear models
1. 支持向量机能利用线性模型来实现对非线性分类边界的描绘。the trick is easy: transform the input using a nonlinear mapping; in other words, transform the instance space into a new space.由于用了非线性映射,在新空间里的一条直线,在原来的空间里看起来却不是直的。在新空原创 2012-01-29 20:01:30 · 641 阅读 · 0 评论 -
推荐系统入门实践:世纪佳缘会员推荐(完整版)
From: http://www.cnblogs.com/supersteven/archive/2012/09/01/2666565.html版本作者联系日期1.0周巍然weiran.chow@gmail.com20120723转载 2012-09-26 21:52:23 · 5737 阅读 · 1 评论 -
Apache Mahout 简介 通过可伸缩、商业友好的机器学习来构建智能应用程序
From: http://www.ibm.com/developerworks/cn/java/j-mahout/在信息时代,公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息。无论是每天处理数以千计的个人电子邮件消息,还是从海量博客文章中推测用户的意图,都需要使用一些工具来组织和增强数据。 这其中就蕴含着机器学习 领域以及本文章所介绍项目的前景:Apache转载 2012-07-09 21:31:03 · 1878 阅读 · 0 评论 -
Logistic regression 逻辑回归 概述
from : http://hi.baidu.com/hehehehello/blog/item/0b59cd803bf15ece9023d96e.htmlLogistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的转载 2012-01-05 21:39:51 · 1765 阅读 · 0 评论 -
data mining decision tree
1. 信息增益,熵2. ID3, C4.5, 基于信息增益的判定树构造 top-down divide-and-conquer algorithm, 每一步选择一个属性,使得信息增益最大。3. mining association rules 挖掘关联规则 - AProri算法coverage => supportaccuracy => confidenceassociatio原创 2012-01-03 20:15:48 · 933 阅读 · 0 评论 -
data mining statistical modeling
1. naive bayes model2. Laplace smoothing原创 2012-01-03 20:18:19 · 554 阅读 · 0 评论 -
Weka Experimenter
refer to 《Data Mining,Practical Machine Learning Tools and Techniques 2nd》chapter 12serious investigative work involves substantial experiments—typically running several learning schemes on differen原创 2012-02-04 19:44:32 · 2188 阅读 · 0 评论 -
Weka Explorer
refer to 《Data Mining,Practical Machine Learning Tools and Techniques 2nd》chapter 101. weka explorer 界面如下:功能简介:1) preprocess: 选择数据集,并以多种方式进行修改2) 分类: train learning schemes that perform c原创 2012-02-04 17:22:18 · 2070 阅读 · 0 评论 -
Weka Knowledge flow
refer to 《Data Mining,Practical Machine Learning Tools and Techniques 2nd》chapter 11界面如下,功能和Explorer类似。原创 2012-02-04 19:27:27 · 2493 阅读 · 0 评论 -
Instance-based learning
1. 距离的定义: 欧氏距离a. 属性值的标准化b. 在实践中,属性之间距离的真正含义是什么?2. 如何寻找最近邻居?a. kd-tree 既要求树有完美的平衡结构,又要求区域近似方形. 直角问题.b. ball tree 3. k-最近邻法4. 最近邻规则在实践中的问题a. 对于较大规模的训练数据集,速度往往很慢b. 碰到干扰数据,性能表现较差c. 当不同原创 2012-01-07 22:08:12 · 1979 阅读 · 0 评论 -
机器学习 4 model selection and feature selection
机器学习 第10讲 http://v.163.com/movie/2008/1/U/O/M6SGF6VB4_M6SGJURUO.html1. hold-out cross validationtraining set - 70%cross-validation set - 30%a. k = 10 b. leave one out CV2. feature selectio原创 2011-11-05 17:53:21 · 1076 阅读 · 0 评论 -
vc维
1. 什么是VC维VC维(Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学习理论定义的有关函数集学习性能的一个重要指标。传统的定义是:对一个指标函数集,如果存在H个样本能够被函数集中的函数按所有可能的2的K次方种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能原创 2011-11-05 17:46:31 · 3654 阅读 · 1 评论 -
机器学习 5 machine learning advice
1. Bayesian regularization2. online learningstochastic gradient descent: 随机梯度下降3. ML advicea. more training examples => fix high varianceb. Trying a smaller set of features => fixes high v原创 2011-11-05 20:03:54 · 743 阅读 · 0 评论 -
数据挖掘查询语言DMQL
一种数据挖掘查询语言DMQL,指定一个数据挖掘任务的五种原语(要素):1. 说明数据库的部分或用户感兴趣的数据集2. 要挖掘的知识类型3. 用于指导挖掘的背景知识4. 模式评估、兴趣度量5. 如何显示发现的知识Top-level syntax of a原创 2011-10-04 11:26:14 · 3957 阅读 · 0 评论 -
大型数据库关联规则挖掘 - Apriori
如果项集的频率大于(最小支持度×D中的事务总数),则称该项集为频繁项集Apriori算法是挖掘布尔关联规则频繁项集的算法, Apriori算法利用的是Apriori性质:频繁项集的所有非空子集也必须是频繁的,模式不可能比A更频繁的出现Apriori算法是反单调的,原创 2011-10-05 20:03:18 · 624 阅读 · 0 评论 -
概念描述:面向数据库的方法与机器学习的方法比较
1. 面向数据库的方法:面向大型数据库的概念描述的概化方法 使用基于数据立方体的方法 或者 面向属性的归纳的方法 2. 机器学习:使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定 差异:原创 2011-10-05 17:39:35 · 831 阅读 · 0 评论 -
类比较的过程
1. 数据收集 通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类 2. 维相关分析 使用属性相关分析方法,使我们的任务中仅包含强相关的维 3. 同步概化 同步的在目标类和对比类上进行概化,得到主目标类关系/方原创 2011-10-05 17:36:10 · 543 阅读 · 0 评论 -
电子商务与数据挖掘
1. 内容挖掘 (Web Content Mining)2. 结构挖掘 (Web Structure Mining) 3. 使用挖掘 (Web Usage Mining) 提高站点的质量 改善WEB缓存,缓解网络交通,提高性能 在电子商原创 2011-10-13 21:03:39 · 991 阅读 · 0 评论 -
聚类分析
1. 数据挖掘对聚类分析的要求 可扩展性(Scalability) 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率 处理不同数据类型的能力 数字型;二元类型,分类型/标称型,序数型,比例标度型等等 发现任意形状的能力原创 2011-10-12 20:26:36 · 811 阅读 · 0 评论 -
方体计算的多路数组聚集方法
note:关于内存大小的理解,内存大小是取决于保存输出结果的大小,每次均读入一个小chunk。原创 2011-10-01 16:16:59 · 2725 阅读 · 1 评论 -
数据的离散化
离散化是将连续属性的范围划分为区间。 有效的规约数据应用在例如 基于判定树的分类挖掘。1) 离散化 通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。 2) 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底原创 2011-10-02 20:48:01 · 856 阅读 · 0 评论 -
数据规约:对数线性模型
Log-linear models approximate discrete multidimensional probability distributions. The method can be used toestimate the probability of ea原创 2011-10-02 18:44:58 · 1180 阅读 · 0 评论 -
概念描述的属性相关分析步骤
解析特征化:属性相关分析 通过识别不相关或者是弱相关的属性,将它们排除在概念描述过程之外,从而确定哪些属性应当包含在类特征化和类比较中。1. 数据收集 通过查询处理,收集目标类和对比类数据 2. 使用保守的AOI进行预相关分析原创 2011-10-04 19:45:56 · 1018 阅读 · 0 评论 -
Apriori算法分析以及FP-tree算法
提高Apriori算法的有效性主要的挑战:1. 要对数据进行多次扫描2. 会产生大量的候选集3. 对候选项集的支持度计算会非常繁琐解决思路1. 减少对数据的扫描2. 缩小产生的候选项集3. 改进对候选项集的支持度的计算方法方法1:基原创 2011-10-06 12:31:08 · 4002 阅读 · 0 评论 -
数据挖掘对聚类分析的要求
1. 可扩展性(Scalability) 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率 2. 处理不同数据类型的能力 数字型;二元类型,分类型/标称型,序数型,比例标度型等等 3. 发现任意形状的能力 基于距离的聚类算法往往原创 2011-10-07 19:25:32 · 2114 阅读 · 0 评论 -
机器学习 10 MDP cont.
机器学习 lesson 171. continuous states? 离散化2. curse of dimensionalityThe curse of dimensionality refers to various phenomena that arise when analyzing and organizing high-dimensional spaces (often w原创 2011-11-20 11:17:04 · 879 阅读 · 0 评论 -
Bias vs. variance
from: http://blog.sina.com.cn/s/blog_49899f3b0100lewa.htmlBias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模,它可以把一种学习算法的期望误差分解为三个非负项的和,即本真噪音、bias和 variance。本真噪音是任何学习算法在该学习目标上的期望误差的下界;( 任何方法都克服不了转载 2011-10-30 20:01:20 · 1084 阅读 · 0 评论 -
机器学习 9 强化学习
机器学习 lesson 161. reinforcement learning, sequential decision making2. credit assignment problem3. Markov decision process - MDP基于马尔可夫过程理论的随机动态系统的最优决策过程,英文缩写 MDP。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确原创 2011-11-15 19:44:00 · 4294 阅读 · 0 评论