
自然语言处理(NLP)
weedge
诚恳,爱生活,有点傻。有时对一件认准的事很执着,属单线程~,有点“执迷不悟”!(just do IT)。现在专注自然语言处理和信息检索,并且执迷于分布式数据存储,属于菜鸟。
展开
-
十大数据挖掘算法及各自优势
十大数据挖掘算法及各自优势 From:http://www.sphinxsearch.org/archives/367 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出转载 2011-09-27 21:45:28 · 853 阅读 · 0 评论 -
倒排索引压缩(无损压缩)
Index Compression(压缩比vs解压效率) 主要是对倒排索引(inverted index)中的倒排列表(postings list)进行编码压缩。 编码方法: 1.D-gaps:对有序编号(如docid)进行差值(d-gaps)编码。(处理小数据需要小代码量,处理时间短)编码并没有定义存储数据的比特模式,所以他自身不节省任何空间。 2.Elias-γ原创 2011-08-30 10:25:20 · 3614 阅读 · 0 评论