
开源
夕阳那边
这个作者很懒,什么都没留下…
展开
-
(三)Hyper压缩策略的选择以及JIT
hyper的DataBlock中采用了三种压缩策略。signle value 压缩:这种事当在一个block中列的值为单值的时候才用的。排序字典压缩:一般而言,string会用这种压缩方式,这样方便于做比较操作,比如等号,大于等等截断压缩:这个压缩算法是只存了数据相对于min只的偏移量,这个压缩算法不会用在string和double 上面数据会在交给消费者前被解压。感觉JIT会原创 2016-05-24 09:27:22 · 359 阅读 · 0 评论 -
(二)Hyper如何对DataBlock中的数据进行索引
上图中展示了一个4byte的列的索引在hyper中的PSMA怎么工作的。按照Hyper的索引方式,lookuptable的有4byte*2^8= 2^1024个entry。其中,重要的的就是,如何将min和max之间的数据用这1024个entry表示。那么entry的计算方式是:其中,r是byteofdelta中除开第一个非0 的byte后剩余的byte数量。我们现在来验证可行性,假设原创 2016-05-23 21:39:48 · 317 阅读 · 0 评论 -
google hash table ------稀疏hash表之sparse hashtable
A sparse hashtable is a particular implementation of// a hashtable: one that is meant to minimize memory use.// It does this by using a *sparse table* (cf sparsetable.h),// which uses between 1原创 2016-04-19 23:16:48 · 1813 阅读 · 0 评论 -
google hash表之dense_hash
https://github.com/sparsehash/sparsehashdense_hash 是google的一个开源的hashtable的实现。可以通过value找到key ExtractKey,支持(反)序列化到文件,现在主要分析非(反)序列化部分成员变量 Settings settings; KeyInfo key_info; size原创 2016-04-13 15:43:40 · 5097 阅读 · 0 评论 -
(一)Spark学习系列
本文讲讲Spark中的数据组织方式和stage的划分以及stage的调度Spark中数据的组织通过RDD方式完成。RDD可以理解成为一组数据加上对数据的操作。RDD上面的数据是不可以更改的,但是RDD可以从一个RDD转换成为另外的一个RDD。窄依赖就类似于图上面的这种,一个前面的RDD中的partition只会被后面的一个RDD的partition所依赖。宽依赖就类似于原创 2016-04-25 15:42:47 · 394 阅读 · 0 评论 -
待续(四)spark学习系列
这章节主要延续的(三)中的shuffle模块提供的shuffle read。在spark 中,shuffle read是提供给shuffle的后继用来读取shuffle数据的。当需要读取远程数据的时候,1.每次只会开最多5个线程进行读取2.每次请求的数量不会超过maxmbinflight,默认是45M/5,这样的好处是,限制数据的读取量,当一个节成为了网络拥塞节点后,在它上面读取数据的原创 2016-05-16 00:02:58 · 318 阅读 · 0 评论 -
(一)Hyper的数据管理概述
Hyper是一个单机的数据库,不过现在有人把它分布式化了,性能还很好。http://www.vldb.org/pvldb/vol9/p228-roediger.pdfHyper将数据分为了冷数据和热数据,冷数据就是经常读不常写的,热数据就是经常写的不经常读的。本文主要讲的是Hyper对冷数据的管理。为了能够支持对热数据的快速访问,热的数据如果要压缩必须是轻量级的压缩。在hype原创 2016-05-23 14:26:55 · 1079 阅读 · 1 评论 -
暴雪hash
暴雪的hash转载自:http://www.biaodianfu.com/blizzard-hash.html暴雪公司的魔兽、星际等游戏都一样一个非常大的MPQ文件,该文件存储了游戏中的大部分数据,想要把这些文字找出来,简单的办法是从数组头开始,一个个字符串读过去,比较每一个,直到找到对应的内容。Blizzard的天才和牛人们当然不会这样做,他们用了更聪明的方法: 用某种算法,把一个字符串压缩成一个转载 2016-06-13 23:32:22 · 713 阅读 · 0 评论