
数据挖掘
Scojen
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
文本相似(汉明距离)
汉明距离《海量数据相似度计算之simhash和海明距离》 介绍了simhash的原理,大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增,如果一天100w,10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash,计算量还是蛮大,普通PC 比较1000w次海明距离需要 300ms ,和5000w数据比较需要1.8 s。看起来相似度计算不是很慢,还在秒转载 2016-09-13 10:52:56 · 8111 阅读 · 0 评论 -
图片相似度(汉明距离)
Google、Baidu 等搜索引擎相继推出了以图搜图的功能,测试了下效果还不错~ 那这种技术的原理是什么呢?计算机怎么知道两张图片相似呢?根据Neal Krawetz博士的解释,原理非常简单易懂。我们可以用一个快速算法,就达到基本的效果。这里的关键技术叫做”感知哈希算法”(Perceptual hash algorithm),它的作用是对每张图片生成一个”指纹”(fingerprint)字符串,然转载 2016-09-13 10:55:26 · 20522 阅读 · 1 评论 -
距离和相似度度量的区别和联系
距离和相似度度量6 条回复 在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们翻译 2016-09-13 20:43:16 · 3161 阅读 · 0 评论 -
K近邻,kd树
k近邻是不具有显式的学习过程,是简单的分类回归算法k近邻三个重要的因素:距离计算,k值的选择,分类规则距离计算 例子: k值的选择 在应用中k一般取比较小的值,通常采用交叉验证来选取最优的k。分类决策规则 kd树是为了减少在k近邻计算k个距离最近的类数据集线性扫描的过程,kd搜索,首先先构造kd搜索树 例子: 过程kd树最近邻搜索算法: 引用资料,李航–统计学习方法原创 2016-12-29 17:28:01 · 621 阅读 · 0 评论 -
特征工程
图片摘自网络特征分类: 1.Low level特征和High level特征; 2.稳定特征与动态特征; 3.二值特征、连续特征、枚举特征;特征处理,分析1.特征归一化,离散化,缺省值处理。归一化不同的特征有不同的取值范围,在有些算法中,例如线性模型或者距离相关的模型像聚类模型、knn模型等,特征的取值范围会对最终原创 2017-02-08 16:42:07 · 531 阅读 · 0 评论