- 博客(28)
- 收藏
- 关注

原创 Document数据库 VS 关系数据库
在今天这个传说中的大数据时代有着各种各样的数据库:开源的,商业的,自研,基于开源系统改进的。一家大公司/大项目不用n个xxxDB,m个数据分析工具都不好意思和人打招呼。问题是作为一线开发人员(比如写php的,写java的,写node.js的)关心的是怎么搞定需求,早点下班回家,拿到项目奖金才是王道。
2015-03-08 21:19:36
1813

原创 Postgresql-xl 调研
Postgresql-xl 调研来历这个项目的背后是一家叫做stormDB的公司。整个代买基于postgres-xc。开源版本应该是stormdb的一个分支。In 2010, NTT's Open Source Software Center approached EnterpriseDB tobuild off of NTT OSSC's experience wit
2014-12-27 18:47:16
2963

原创 SequoiaDB 笔记
SequoiaDB 笔记这几天翻了翻SequoiaDB的代码,记了点笔记。不保证下面内容的正确性(肯定有错的地方)个人观感优点代码还不错,设计也算简洁。EDU和CB的使用让整个系统变得简单很多,让代码更关注逻辑。从设计上应该就是一个分布式系统,麻雀虽小五脏俱全。没用什么乱七八糟的东西改,基本是自己的代码(虽然支持SQL但是基本可以认为是通过Postgre
2014-12-27 11:35:16
5835
原创 scala
Scala@(scala)Why ScalaFirst Question: Why scala个人理解的Scala优势Functional Programming 在多核/云计算上的优势运行在JVM上,可以有效利用Java现有的各种资源用更少的代码干更多的事儿,和Java相比同一件事情可以省很多代码同时结合了FP和OO,不是纯的语言。实际上Java也在试图结合FP。推荐[入门视频]快学
2015-05-21 22:57:08
493
原创 Akka
akka@(scala)基本介绍Akka 是一个用 Scala 编写的库,用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。 官方网站 (http://akka.io/)的介绍是: Akka is a toolkit and runtime for building highly concurrent, distributed, and fault tole
2015-05-21 22:56:38
744
原创 spark-sql-catalyst
简单说这部分就是做optimizer的工作的,关于这部分是有一篇论文,写的很清楚,可以当作high leve design来看。还有一篇blog,内容差不多。总的来说,在catalyst这部分做的事情基本上是传统关系数据库的: 1. parse(让sql语句变成合法的语法树) 2. resolve(验证olum
2015-05-21 22:49:32
938
原创 spark-sql-readme
spark-sql-readme@(spark)[sql][readme]This module provides support for executing relational queries expressed in either SQL or a LINQ-like Scala DSL.
2015-05-21 22:48:28
434
原创 Spark-shuffle
Spark-shuffle@(spark)[shuffle]ShuffleHandle/BaseShuffleHandeAn opaque handle to a shuffle, used by a ShuffleManager to pass information about it to tasksShuffleMemoryManager控制shuffle的memory使用的/**
2015-05-21 22:45:06
686
原创 spark-broadcast
Spark’s broadcast variables, used to broadcast immutable datasets to all nodeBroadcast/**
2015-05-21 22:42:43
836
原创 Spark-Dependency/Aggregator
@(spark)[Dependency|Aggregator] RDD的核心之一:依赖关系
2015-05-21 22:38:49
732
原创 Spark-rdd
Spark-rdd@(spark)[rdd] 首先介绍一下rdd,然后按字母字母顺序逐个描述各个rddRDD基类就叫RDD,这个文件非常长,有非常多的函数: 1. 省略比较直观的函数的说明 2. 有大量的功能函数distinct之类 3. 再次重申sc.runJob是所有实质性函数的入口 4. 在object RDD中含有大量的隐式转化 5. 这中间最重要的一个函数就是override
2015-05-21 22:37:20
504
原创 Spark---Spark开头的杂项
Spark—Spark开头的杂项@(spark)[configure|exeption|env|sparkContext]SparkConf其核心是一个java.util.concurrent.ConcurrentHashMap[String, String],不同的key有自己的值除了正常的set之外,还有大量的’utils’函数比如def setMaster(master: String):
2015-05-21 22:34:47
1160
原创 Spark-logging
Spark-logging@(spark)[logging]代码目录src/main/scala/org/apache/spark/Logging.scala 这是一个非常简单的类,作为第一篇spark笔记非常合适 基本上这个class的主要用途就是包装了一下log4j,把它变成要给trait,可以很简单的在代码中使用。 1. 作为scala的入门读物很好。 2. 需要注意的是,这个Logg
2015-05-21 22:34:30
2228
原创 SequoiaDB的查询执行过程
SequoiaDB的查询执行过程继续读了SDB的代码,重点还是内核的代码。从客户端–查询优化—查询执行的过程来描述一下查询的过程。希望可以搞清楚2个问题: 1. SDB能做什么查询? 1. 搞清楚SDB是怎么做查询的?第一个问题的答案是: 1. 理论上,SDB能做mongoDB能做的所有查询,SDB还支持SQL(我指的是SDB内建的支持,不是通过PG支持的查询) 1. 实际上,我没有一个一个
2015-04-11 10:13:13
1186
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人