
大数据
向标杆直跑
这个作者很懒,什么都没留下…
展开
-
Data bricks catalyst optimizer
https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-optimizer.html原创 2019-10-24 23:32:56 · 265 阅读 · 0 评论 -
spark bookmark
https://github.com/JerryLead/SparkInternals/blob/master/SUMMARY.md原创 2019-10-24 04:13:33 · 151 阅读 · 0 评论 -
Alluxio
alluxio是一个分布式文件系统,主要用来做大数据处理,和数据源之间的中间层。 它本身支持内存和SSD,HDD的tiering,但实践中主要感兴趣的是它的内存缓存。 类似Gfs,它有master,workers,和clients。client向master查询数据位置,然后向本地workers提IO请求。workers之间通过Grpc做数据请求。没有复制,读数据在请求节点上也会缓存。 它没有复制...原创 2019-06-10 23:27:09 · 738 阅读 · 0 评论 -
moosefs
Build moosefs Using Ubuntu 18.04.1, need to install many packages, including libz,… ./configure # install all the missing libraries, libpcap-dev, zlib1g-dev, fuse, libfuse-dev, etc. And tools such ...转载 2019-07-02 05:54:27 · 348 阅读 · 0 评论 -
HDFS HA机制
这篇文章讲的很好! https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-name-node/index.html 几点summary: master和active backup之间采用共享内存的方式,可以是NAS之类传统的,也可以是QJM这种基于Quorum的。 基于Quorum的方式,master会采用Paxos协议来提交...转载 2019-07-03 00:30:26 · 229 阅读 · 1 评论 -
Intel Optane and SAP HANA
读“Unleashing the power of in-memory computing: Intel Optane DC Persistent memory for SAP HANA” notes。 作者认为内存数据库中,行存和列存的性能差异可以忽略不计。但是列存对OLAP的好处很大。 HTAP一般有一个行存在列存的前面以便于OLTP事务的性能,但是有一个问题就是当数据在这一层的时候,有没有和...原创 2019-08-06 09:51:46 · 265 阅读 · 0 评论