blesslyy-优快云博客

原创 Document数据库 VS 关系数据库

在今天这个传说中的大数据时代有着各种各样的数据库：开源的，商业的，自研，基于开源系统改进的。一家大公司/大项目不用n个xxxDB，m个数据分析工具都不好意思和人打招呼。问题是作为一线开发人员（比如写php的，写java的，写node.js的）关心的是怎么搞定需求，早点下班回家，拿到项目奖金才是王道。

2015-03-08 21:19:36 1861

原创 Postgresql-xl 调研

Postgresql-xl 调研来历这个项目的背后是一家叫做stormDB的公司。整个代买基于postgres-xc。开源版本应该是stormdb的一个分支。In 2010, NTT's Open Source Software Center approached EnterpriseDB tobuild off of NTT OSSC's experience wit

2014-12-27 18:47:16 3047

原创 SequoiaDB 笔记

SequoiaDB 笔记这几天翻了翻SequoiaDB的代码，记了点笔记。不保证下面内容的正确性（肯定有错的地方）个人观感优点代码还不错，设计也算简洁。EDU和CB的使用让整个系统变得简单很多，让代码更关注逻辑。从设计上应该就是一个分布式系统，麻雀虽小五脏俱全。没用什么乱七八糟的东西改，基本是自己的代码（虽然支持SQL但是基本可以认为是通过Postgre

2014-12-27 11:35:16 5886

原创 Spark-streaming-杂

Spark-streaming-杂

2015-06-04 17:17:47 677

原创 Spark-streaming-scheduler

Spark-streaming-scheduler

2015-06-04 17:17:14 608

原创 Spark-streaming-summary

Spark Streaming functionality.

2015-06-04 17:15:25 586

原创 scala

Scala@(scala)Why ScalaFirst Question: Why scala个人理解的Scala优势Functional Programming 在多核/云计算上的优势运行在JVM上，可以有效利用Java现有的各种资源用更少的代码干更多的事儿，和Java相比同一件事情可以省很多代码同时结合了FP和OO，不是纯的语言。实际上Java也在试图结合FP。推荐[入门视频]快学

2015-05-21 22:57:08 527

原创 Akka

akka@(scala)基本介绍Akka 是一个用 Scala 编写的库，用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。官方网站（http://akka.io/）的介绍是： Akka is a toolkit and runtime for building highly concurrent, distributed, and fault tole

2015-05-21 22:56:38 771

原创 Spark-SQL-core

整个spark-sql的作用就是完成SQL语句到spark api的转换过程。

2015-05-21 22:49:50 1609

原创 spark-sql-catalyst

简单说这部分就是做optimizer的工作的，关于这部分是有一篇论文，写的很清楚，可以当作high leve design来看。还有一篇blog，内容差不多。总的来说，在catalyst这部分做的事情基本上是传统关系数据库的： 1. parse（让sql语句变成合法的语法树） 2. resolve（验证olum

2015-05-21 22:49:32 975

原创 Spark-sql-row

Spark-sql-row@(spark)[sql|row]Rowrow就是关系数据库中的一行。/**

2015-05-21 22:49:23 5497 1

原创 spark-sql-readme

spark-sql-readme@(spark)[sql][readme]This module provides support for executing relational queries expressed in either SQL or a LINQ-like Scala DSL.

2015-05-21 22:48:28 457

原创 Spark-deploy

Spark-deploy@(spark)[deploy|yarn]

2015-05-21 22:47:04 880

原创 Spark-scheduler

Spark-scheduler@(spark)[scheduler]Task/**

2015-05-21 22:47:01 1519

原创 Spark-executor

Spark-executor@(spark)[executor]

2015-05-21 22:45:38 1200

原创 Spark-shuffle

Spark-shuffle@(spark)[shuffle]ShuffleHandle/BaseShuffleHandeAn opaque handle to a shuffle, used by a ShuffleManager to pass information about it to tasksShuffleMemoryManager控制shuffle的memory使用的/**

2015-05-21 22:45:06 716

原创 Spark-storage

Spark-storage@(spark)[storage]

2015-05-21 22:44:26 909

原创 Spark-杂项

Spark-杂项@(spark)[input|serializer|partial]

2015-05-21 22:44:16 463

原创 spark-broadcast

Spark’s broadcast variables, used to broadcast immutable datasets to all nodeBroadcast/**

2015-05-21 22:42:43 866

原创 Spark-futureAction

@(spark)[FutureAction]FutureAction

2015-05-21 22:40:50 1046

原创 Spark-Dependency/Aggregator

@(spark)[Dependency|Aggregator] RDD的核心之一：依赖关系

2015-05-21 22:38:49 766

原创 Spark-partitioner

Spark-partitioner@(spark)[partitioner]Partitioner/**

2015-05-21 22:38:42 875

原创 Spark-rdd

Spark-rdd@(spark)[rdd] 首先介绍一下rdd，然后按字母字母顺序逐个描述各个rddRDD基类就叫RDD，这个文件非常长，有非常多的函数： 1. 省略比较直观的函数的说明 2. 有大量的功能函数distinct之类 3. 再次重申sc.runJob是所有实质性函数的入口 4. 在object RDD中含有大量的隐式转化 5. 这中间最重要的一个函数就是override

2015-05-21 22:37:20 531

原创 Spark-task相关

Spark-task相关@(spark)[Task]

2015-05-21 22:37:10 512

原创 Spark-utils 类

按字母序简单描述ActorLogReceive记录所有的Actor信息

2015-05-21 22:35:39 1240

原创 Spark---Spark开头的杂项

Spark—Spark开头的杂项@(spark)[configure|exeption|env|sparkContext]SparkConf其核心是一个java.util.concurrent.ConcurrentHashMap[String, String]，不同的key有自己的值除了正常的set之外，还有大量的’utils’函数比如def setMaster(master: String):

2015-05-21 22:34:47 1207

原创 Spark-logging

Spark-logging@(spark)[logging]代码目录src/main/scala/org/apache/spark/Logging.scala 这是一个非常简单的类，作为第一篇spark笔记非常合适基本上这个class的主要用途就是包装了一下log4j，把它变成要给trait，可以很简单的在代码中使用。 1. 作为scala的入门读物很好。 2. 需要注意的是，这个Logg

2015-05-21 22:34:30 2260

原创 SequoiaDB的查询执行过程

SequoiaDB的查询执行过程继续读了SDB的代码，重点还是内核的代码。从客户端–查询优化—查询执行的过程来描述一下查询的过程。希望可以搞清楚2个问题： 1. SDB能做什么查询? 1. 搞清楚SDB是怎么做查询的?第一个问题的答案是： 1. 理论上，SDB能做mongoDB能做的所有查询，SDB还支持SQL（我指的是SDB内建的支持，不是通过PG支持的查询） 1. 实际上，我没有一个一个

2015-04-11 10:13:13 1238

oblesslyy的专栏