
数据挖掘
文章平均质量分 80
烤鱼想睡觉
愿漂泊的人都有酒喝,愿孤独的人都有歌唱。
展开
-
相似性度量总结
又机器学习中的相似性度量 、 余弦距离、欧氏距离和杰卡德相似性度量的对比分析 整理而成在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录: 1. 欧氏距离转载 2015-12-05 20:14:13 · 13073 阅读 · 2 评论 -
读书笔记 -- 008_数据挖掘_聚类_基于层次的方法
概述 尽管基于划分的聚类算法满足把对象划分成一些互斥的组群的基本聚类要求,但是在某些情况下,我们希望把数据划分成不同层次的组群,如层次。层次聚类方法(hierarchical clustering method)将数据对象组成层次结构或簇的“树”。 对于数据汇总和可视化,用层次结构的形式表示数据对象是有用的。我们可以很容易地对组织在层次结构中的数据进行汇总或特征化。 这原创 2015-12-14 21:25:18 · 1810 阅读 · 0 评论 -
读书笔记 -- 011_数据挖掘_频繁模式_关联性_相关性_1
概念 频繁模式(frequent pattern):是频繁地出现在数据集中的模式(如项集、子序列或子结构)。频繁模式挖掘搜索给定数据集中反复出现的联系。 支持度(support)和置信度(confidence)是关联规则的两种度量。他们分别反映所发现规则的有用性和确定性。例如: computer=>antivirus_software[support = 2%; c原创 2015-12-15 21:46:02 · 1555 阅读 · 0 评论 -
读书笔记 -- 012_数据挖掘_频繁模式_关联性_相关性_2
FP-增长(Frequent Pattern Growth, FP-growth)算法:发现频繁模式而不产生候选 正如在Apriori算法中看到的,Apriori算法的候选产生-检查方法显著压缩了候选项集的规模,并产生了很好的性能。然而,它可能仍然需要产生大量的候选项集。同时,Apriori算法可能需要重复地扫描整个数据库。 下面介绍一种称作FP-growth的算法。该算法采用完全不同原创 2015-12-19 16:19:37 · 1292 阅读 · 0 评论 -
读书笔记 --《数学之美》_隐马尔可夫模型
《数学之美⋅第二版》第五章1、通信模型 上图表示了一个典型的通信系统,它包括雅各布森(Roman Jakobson)提出的通信的六个要素(发送者(信息源),信道,接收者,信息,上下文和编码)。 其中,s1,s2,s3,...s_1,s_2,s_3,...表示信息源发出的信号。o1,o2,o3,...o_1,o_2,o_3,...是接受器接收到的信号。通信中的解码就是根究接收到的信号o1,o2原创 2015-12-22 21:49:49 · 1549 阅读 · 0 评论 -
读书笔记--python数据可视化--002_读取Excel文件数据
虽然Excel也支持一些图画操作,但是如果需要更加强大和灵活的可视化效果,把数据从Excel导入到Python中以备将来不时之需。首先,我们需要安装必须的模块,这里需要安装xlrd模块。$ pip install xlrd示例代码:#-*- coding: UTF-8 -*-''' ################################################# # Au原创 2015-12-26 16:32:02 · 2027 阅读 · 0 评论 -
读书笔记--python数据可视化--003_读取定宽数据文件
如果文件中的格式是以定宽的格式存储的,那么可以通过格式来匹配并提取数据。一种方法是逐行读取数据,然后利用字符串的操作来提取数据。这种方法比较直接,如果在性能不做要求的话是首选操作。另外一种是利用python的struct模块来提升性能,并能读取较大的数据(比如几百兆的数据),因为这个模块使用c语言而不是python实现的。struct模块是python标准库的一部分,因此不需安装就能够使用。#-*-原创 2015-12-26 17:18:43 · 986 阅读 · 0 评论 -
读书笔记 -- 007_数据挖掘_聚类_基于划分的方法
- - 概述 - - 聚类分析最简单、最基本的版本是划分,它把对象组织成多个互斥的组或簇。为了使得问题说明简洁,我们假定簇的个数作为背景知识给定。这个参数是划分方法的起点。 形式地,给定 n 个数据对象的数据集 D,以及要生成的簇个数 k,划分方法把数据对象组织成 k ( k <= n )个分区,其中每个分区代表一个簇。这些簇的形成旨在优化一个客观划分准则,如基于距离的相异性函数原创 2015-12-12 09:52:04 · 3511 阅读 · 0 评论 -
读书笔记 -- 005_数据挖掘_度量数据的相似性和相异性
1、概述 相似性和相异性都成为邻近性(Proximity)。相似性和相异性是有关联的。典型地,如果两个对象i和j不相似,则他们的相似性度量将返回0。2、数据矩阵和相异性矩阵 假设我们有n个对象,每个对象由p个属性进行刻画。那么得到对象集X = (x1, x2, x3, …. xn) ,对象xi的属性集为 P = (pi1, pi2, pi3 … pip) , 1 < i < n。 数据矩阵原创 2015-12-06 17:06:10 · 6285 阅读 · 0 评论 -
Hash表算法
本文分为三部分内容, 第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法转载 2015-12-05 16:28:38 · 508 阅读 · 0 评论 -
机器学习 --- 入门
计划 :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------原创 2015-11-20 21:45:27 · 468 阅读 · 0 评论 -
词语在文档中的重要性 -- TF-IDF算法
词语在文档中的重要性 -- TF-IDF算法原创 2015-12-04 22:08:31 · 2719 阅读 · 0 评论 -
读书笔记 -- 001_数据预处理_数据清理
1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术: - - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数据变换:(原创 2015-12-07 21:20:32 · 2915 阅读 · 0 评论 -
读书笔记 -- 002_数据预处理_数据集成
概述 数据挖掘经常需要数据集成 – 合并来自多个数据源的数据。小心集成有助于减少结果数据集的冗余和不一致。这有助于提高其后数据挖掘的准确性和速度。1、实体识别问题 数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并,存放那个在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。自数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。原创 2015-12-08 10:59:42 · 2190 阅读 · 0 评论 -
读书笔记 -- 003_数据预处理_数据归约
概述 数据归约(data reduction)技术可以用来得到数据集的归约表示,它小得多,但是保持原始数据的完整性。也就是说,在归约后的数据集上挖掘更有效果,仍然产生相同( 或几乎形同)的分析结果。注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据挖掘上挖掘节省的时间。数据挖掘策略包括维归约、数量归约和数据压缩。 1) 维归约(dimensionlity):减少所考虑的随机变原创 2015-12-10 20:46:26 · 1838 阅读 · 0 评论 -
读书笔记 -- 004_数据预处理_数据规范化
概述 所用的度量单位可能影响数据分析。例如,把height的度量单位从米制换成英寸,把weight的度量单位从公斤换成磅,可能导致的结果不一样。一般而言,用较小的单位表示属性将导致该属性具有较大的值域,因此趋向于使这样的属性具有较大的影响或较高的“权重”。为了帮助避免对度量单位选择的依赖性,数据应该规范化或标准化。这涉及到变换数据,使之落入较小的共同区间,如[-1, 1]或[0.0, 1.0]原创 2015-12-10 21:52:20 · 2576 阅读 · 0 评论 -
读书笔记 -- 006_数据挖掘_聚类_概念知识
概论 聚类是把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但是与其他簇中的对象很不相似。相异性和相似性根据描述对象的属性值评估,并且通常涉及距离度量。聚类作为一种数据挖掘工具已经根植于许多应用领域,如生物学、安全、商务智能和Web搜索。 聚类分析(cluster analysis)简称聚类(clustering),是一个把数据对象(或观测)划分成子集的过程。原创 2015-12-10 22:25:13 · 2005 阅读 · 0 评论 -
读书笔记--python数据可视化--001_读取CSV文件数据
#-*- coding: UTF-8 -*-''' ################################################# # Author : 余欢 # Date : Dec 26, 2015 2:25:39 PM #company : 南京师范大学--大数据实验室 # description : #######################原创 2015-12-26 15:06:54 · 5511 阅读 · 0 评论