
机器学习
山坡坡上的蜗牛
这个作者很懒,什么都没留下…
展开
-
聚类方法:DBSCAN算法研究(1)--DBSCAN原理、流程、参数设置、优缺点以及算法
DBSCAN(Density-based spatial clustering ofapplications with noise)是Martin Ester, Hans-PeterKriegel等人于1996年提出的一种基于密度的空间的数据聚类方法,该算法是最常用的一种聚类方法[1,2]。该算法将具有足够密度区域作为距离中心,不断生长该区域,算法基于一个事实:一个聚类可以由其中的任何核心对象唯一转载 2018-02-05 20:45:36 · 4530 阅读 · 0 评论 -
聚类评估算法-轮廓系数(Silhouette Coefficient )
轮廓系数(Silhouette Coefficient),是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。 方法: 1,计算样本i到同簇其他样本的平均距离ai。ai 越转载 2016-12-09 19:35:03 · 103865 阅读 · 5 评论 -
机器学习中的各种距离测量公式
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离转载 2016-07-31 13:10:08 · 3685 阅读 · 0 评论 -
文本检索模式的学习过程与应用
|*—*|模式构造(算法一:产生各种包含问题与答案的模式,主要是用后缀树进行模式学习)第一步: 用问题+答案搜索第二步:处理搜索出来的1000条数据文本第三步:用正则表达式保留包含了问题和答案的句子第四步:把包含问题和答案的sentences传给后缀树执行(找到这些句子中重复最多的最长子串 如:mozart (1957-2001))第五步:把包含问题和答案的ph翻译 2016-05-03 11:14:48 · 386 阅读 · 0 评论