
数据分析
文章平均质量分 67
radar1985
这个作者很懒,什么都没留下…
展开
-
数据挖掘基础:描述性数据汇总
描述性数据汇总1 中心趋势度量 分布式度量 可分布式计算,如sum,count代数度量 可通过分布式计算运算得到,如avg=sum/count,中列数整体度量 不可分布式计算,必须整体计算,如中位数median,众数mode 众数:出现频率最高的数。 中列数:最大值和最小值的平均值。公式 适度倾斜的单频率曲线 :m原创 2013-11-12 15:11:02 · 2245 阅读 · 0 评论 -
数据挖掘基础:属性
属性标称意味“与名称相关”。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。在计算机科学中,这些值也被看做是枚举的(enumeration)。因为标称属性值并不具有有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值(平均值)或原创 2013-11-13 11:26:41 · 1569 阅读 · 0 评论 -
机器学习中的相似性度量
机器学习中的相似性度量Posted on 2011-03-08 23:42 苍梧 阅读(13747) 评论(11) 编辑 收藏 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是转载 2013-11-13 16:13:14 · 944 阅读 · 0 评论 -
数据挖掘基础:度量数据的相似性和相异性
数据矩阵(data matrix)或称对象-属性结构:这种数据结构用关系表的形式或n×p(n个对象×p个属性)矩阵存放n个数据对象: 相异性矩阵(dissimilarity matrix)或称对象-对象结构:存放n个对象两两之间的邻近度(proximity),通常用一个n×n矩阵表示:其中d(i,j)是对象i和对象j之间的相异性或“差别”的度量。一般而言,d(i,j)是一个原创 2013-11-13 16:12:53 · 18312 阅读 · 0 评论 -
数据挖掘基础:相关性检验
本文给出两种相关系数,系数越大说明越相关。你可能会参考另一篇博客独立性检验。皮尔森相关系数皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment correlation coefficient),是用来反应两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、转载 2013-11-15 10:34:13 · 2141 阅读 · 0 评论 -
数据挖掘基础:独立性检验
本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立。你可能会参考另一篇博客相关性检验。假设检验假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体转载 2013-11-15 10:06:57 · 1859 阅读 · 0 评论