
概念知识
文章平均质量分 84
烤鱼想睡觉
愿漂泊的人都有酒喝,愿孤独的人都有歌唱。
展开
-
相似性度量总结
又机器学习中的相似性度量 、 余弦距离、欧氏距离和杰卡德相似性度量的对比分析 整理而成在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录: 1. 欧氏距离转载 2015-12-05 20:14:13 · 13073 阅读 · 2 评论 -
读书笔记 --《数学之美》_隐马尔可夫模型
《数学之美⋅第二版》第五章1、通信模型 上图表示了一个典型的通信系统,它包括雅各布森(Roman Jakobson)提出的通信的六个要素(发送者(信息源),信道,接收者,信息,上下文和编码)。 其中,s1,s2,s3,...s_1,s_2,s_3,...表示信息源发出的信号。o1,o2,o3,...o_1,o_2,o_3,...是接受器接收到的信号。通信中的解码就是根究接收到的信号o1,o2原创 2015-12-22 21:49:49 · 1549 阅读 · 0 评论 -
读书笔记 --《数学之美》_ 中文分词
《数学之美⋅\cdot第二版》第四章 现在中文分词是一个已经解决的问题,提升的空间微乎其微。不值得再去花很大的精力去做研究1、中文分词方法的演变 (a.)北航的梁南元教授提出的查字典类似的方法,但是对于稍微复杂的句子就无能为力;额; (b.)20世纪80年代哈工大的王晓龙博士将查字典的方法理论化,发展成最少词数的分词理论,但是没有解决词语的二义性问题; (c.)1990年前后,清华大学的原创 2015-12-22 20:26:45 · 1326 阅读 · 0 评论 -
读书笔记 -- 012_数据挖掘_频繁模式_关联性_相关性_2
FP-增长(Frequent Pattern Growth, FP-growth)算法:发现频繁模式而不产生候选 正如在Apriori算法中看到的,Apriori算法的候选产生-检查方法显著压缩了候选项集的规模,并产生了很好的性能。然而,它可能仍然需要产生大量的候选项集。同时,Apriori算法可能需要重复地扫描整个数据库。 下面介绍一种称作FP-growth的算法。该算法采用完全不同原创 2015-12-19 16:19:37 · 1292 阅读 · 0 评论 -
读书笔记 -- 008_数据挖掘_聚类_基于层次的方法
概述 尽管基于划分的聚类算法满足把对象划分成一些互斥的组群的基本聚类要求,但是在某些情况下,我们希望把数据划分成不同层次的组群,如层次。层次聚类方法(hierarchical clustering method)将数据对象组成层次结构或簇的“树”。 对于数据汇总和可视化,用层次结构的形式表示数据对象是有用的。我们可以很容易地对组织在层次结构中的数据进行汇总或特征化。 这原创 2015-12-14 21:25:18 · 1810 阅读 · 0 评论 -
NumPy学习 -- 001_数组
#-*- coding: UTF-8 -*-''' ################################################# # Author : 余欢 # Date : Dec 14, 2015 9:39:10 AM #company : # description : #####################################原创 2015-12-14 11:35:55 · 988 阅读 · 0 评论 -
读书笔记 -- 005_数据挖掘_度量数据的相似性和相异性
1、概述 相似性和相异性都成为邻近性(Proximity)。相似性和相异性是有关联的。典型地,如果两个对象i和j不相似,则他们的相似性度量将返回0。2、数据矩阵和相异性矩阵 假设我们有n个对象,每个对象由p个属性进行刻画。那么得到对象集X = (x1, x2, x3, …. xn) ,对象xi的属性集为 P = (pi1, pi2, pi3 … pip) , 1 < i < n。 数据矩阵原创 2015-12-06 17:06:10 · 6285 阅读 · 0 评论 -
读书笔记 -- 006_数据挖掘_聚类_概念知识
概论 聚类是把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但是与其他簇中的对象很不相似。相异性和相似性根据描述对象的属性值评估,并且通常涉及距离度量。聚类作为一种数据挖掘工具已经根植于许多应用领域,如生物学、安全、商务智能和Web搜索。 聚类分析(cluster analysis)简称聚类(clustering),是一个把数据对象(或观测)划分成子集的过程。原创 2015-12-10 22:25:13 · 2005 阅读 · 0 评论 -
读书笔记 -- 004_数据预处理_数据规范化
概述 所用的度量单位可能影响数据分析。例如,把height的度量单位从米制换成英寸,把weight的度量单位从公斤换成磅,可能导致的结果不一样。一般而言,用较小的单位表示属性将导致该属性具有较大的值域,因此趋向于使这样的属性具有较大的影响或较高的“权重”。为了帮助避免对度量单位选择的依赖性,数据应该规范化或标准化。这涉及到变换数据,使之落入较小的共同区间,如[-1, 1]或[0.0, 1.0]原创 2015-12-10 21:52:20 · 2576 阅读 · 0 评论 -
读书笔记 -- 003_数据预处理_数据归约
概述 数据归约(data reduction)技术可以用来得到数据集的归约表示,它小得多,但是保持原始数据的完整性。也就是说,在归约后的数据集上挖掘更有效果,仍然产生相同( 或几乎形同)的分析结果。注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据挖掘上挖掘节省的时间。数据挖掘策略包括维归约、数量归约和数据压缩。 1) 维归约(dimensionlity):减少所考虑的随机变原创 2015-12-10 20:46:26 · 1838 阅读 · 0 评论 -
读书笔记 -- 002_数据预处理_数据集成
概述 数据挖掘经常需要数据集成 – 合并来自多个数据源的数据。小心集成有助于减少结果数据集的冗余和不一致。这有助于提高其后数据挖掘的准确性和速度。1、实体识别问题 数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并,存放那个在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。自数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。原创 2015-12-08 10:59:42 · 2190 阅读 · 0 评论 -
读书笔记 -- 001_数据预处理_数据清理
1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术: - - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数据变换:(原创 2015-12-07 21:20:32 · 2915 阅读 · 0 评论 -
Hash表算法
本文分为三部分内容, 第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法转载 2015-12-05 16:28:38 · 508 阅读 · 0 评论 -
读书笔记--python数据可视化--001_读取CSV文件数据
#-*- coding: UTF-8 -*-''' ################################################# # Author : 余欢 # Date : Dec 26, 2015 2:25:39 PM #company : 南京师范大学--大数据实验室 # description : #######################原创 2015-12-26 15:06:54 · 5511 阅读 · 0 评论