
IR
shenlan211314
2010年7月-今:中国人民大学 信息学院 硕士在读
2006年9月-2010年7月:河北大学 数学与计算机学院 本科
2003年9月-2006年9月:辛集中学
展开
-
Soundex
本文转载自:http://zh.wikipedia.org/wiki/SoundexSoundex是一种语音算法,利用英文字的读音计算近似值,值由四个字符构成,第一个字符为英文字母,后三个为数字。在拼音文字中有时会有会念但不能拼出正确字的情形,可用Soundex做转载 2011-08-10 09:44:43 · 661 阅读 · 0 评论 -
similarity join(record linkage, merge/purge, deduplicate)总结
join的时候一般有如下的特点:数据集较大,但是能够join的数据相对非常非常的少。1. 为了提高join的效率一般有两种做法 1.1 Cartesian product的时候用cost较小的function来判断其相似度不能达到阈值,从而避免用c原创 2011-08-14 14:22:11 · 2130 阅读 · 0 评论