酝酿了很久,1月初开始编码,今天借着518的吉利日志,发布了它-THUIRDB。
THUIRDB目前尚处于初步阶段,主要特点概括如下:
1)索引高度压缩
这对于海量语料的存储,换入内存的能力来说都是非常重要的,特别是在当前计算能力提升很快,而存储能力提升较慢的时代下,尤显重要。
2)做库快速
用过TC,用过BDB这些Nosql DB的同学都有这样的体验,在语料超过内存界限以后,做库非常缓慢,难以忍受,只能通过降低单个数据库的大小的方法来绕过,而THUIRDB则可以做到线性的入库,语料超出内存界限,速度依然极快。
3)查询快速
当语料超过内存,通常的DB解决方案都会读1-2次盘,而THUIRDB最多1次读盘,因此性能非常优异。
希望感兴趣的朋友在THUIRDB官网下载,申请表,并邮件到thuirdb[at]gmail.com,获得体验程序,体验包很小仅20K,神奇之处还不仅仅是小,更大的神奇还在后面。
THUIRDB主页:http://www.thuir.org/thuirdb/

2万+

被折叠的 条评论
为什么被折叠?



