
Data Mining
defungo
这个作者很懒,什么都没留下…
展开
-
数据挖掘导论学习笔记(1)-----基本概念
数据挖掘是什么 数据挖掘时数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。 数据预处理:将未加工的输入数据转换成适合分析的形式。涉及的步骤包括融合来自多个数据源的数据,清晰数据以及消...原创 2012-11-14 11:02:23 · 237 阅读 · 0 评论 -
数据挖掘导论学习笔记(2)----- 数据(1)
数据类型 1.属性与度量 属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。 测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数) 属性类型:我们可以定义四种属性类型,标称(nominal),序数(ordin...原创 2012-11-29 12:22:18 · 115 阅读 · 0 评论 -
贝叶斯方法
0. 前言这是一篇关于贝叶斯方法的科普文,我会尽量少用公式,多用平白的语言叙述,多举实际例子。更严格的公式和计算我会在相应的地方注明参考资料。贝叶斯方法被证明是非常 general 且强大的推理框架,文中你会看到很多有趣的应用。 1. 历史托马斯·贝叶斯(Thomas Bayes)同学的详细生平在这里。以下摘一段 wikipedia 上的简介:...原创 2012-11-30 09:21:57 · 259 阅读 · 0 评论 -
数据挖掘导论学习笔记(2)----- 数据(2)
数据预处理 聚集(aggregation):将两个或多个对象合并成单个对象。例如不同地点的事物数据集,合并。 优点:减少分析的数据可以减少占用空间和处理时间,可以使用更大开销的挖掘算法。 缺点...原创 2012-12-03 10:51:33 · 138 阅读 · 0 评论 -
数据挖掘导论学习笔记(3)----- 汇总统计
1.频率和众数 (是一组数据中出现次数最多的数值,叫众数)2.百分位数3.位置度量:均值(mean)和中位数(median) 均值:统计学术语,与“平均”(Average)意义相同。例如: l、3、6,10、20这5个数的均值是8。也同期望 截断均值(trimmed mean):截断均值是去掉高、低极端值得到的均值。应当避免在两端截断的比例太大,因为这可能导致损失有价值...原创 2013-01-18 14:39:10 · 445 阅读 · 0 评论 -
推荐引擎-(1)简介
推荐引擎在现有的方式大体非为3类1.社会化推荐(social recommendation)。例如让好友给自己推荐物品。2.基于内容的推荐(content-based filtering)。3.基于协同过滤的推荐(collaborative filtering) 从上面3中方法可以看出,推荐算法的本质是通过一定的方式将用户和物品联系起来。例如利用好友,用户的历史兴趣记录以及...原创 2013-01-28 11:17:38 · 151 阅读 · 0 评论 -
推荐引擎-(2)推荐系统的实验方法。
在推荐系统中,主要有3种评测推荐系统的方法。即离线实验(offline experiment),用户调查(user study),在线实验(online experiment)。 1.离线实验 离线实验一般由如下几个步骤组成: (1)通过日志系统获得用户的行为数据,并按照一定格式生成一个标准的数据集...原创 2013-01-29 17:05:58 · 190 阅读 · 0 评论 -
数据挖掘导论学习笔记(4)-决策树分类
决策树分类 1.Hunt算法:许多决策树算法的基础 包括ID3、C4.5和CART 通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。 (其实就是通过属性来递归区别,重点是在如何选择属性,如何停止) 选择最佳划分的度量 决策树归纳算法必须为不同类型的属性提供表示属性测试条件和其对应输出的方...原创 2013-01-31 15:56:21 · 390 阅读 · 0 评论