开源大数据利器汇总

http://blog.youkuaiyun.com/aquester/article/details/23340027

 

类别名称官网备注
查询引擎Phoenixhttp://phoenix.incubator.apache.org/

Apache HBase之上的一个SQL中间层,完全

使用Java编写

Stingerhttp://hortonworks.com/labs/stinger/

原叫Tez,下一代Hive,Hortonworks主导开

发,运行在YARN上的DAG计算框架

Prestohttp://prestodb.io/Facebook开源
Sharkhttp://shark.cs.berkeley.edu/Spark上的SQL执行引擎
Pighttp://pig.apache.org/基于Hadoop MapReduce的脚本语言
Cloudera Impalahttp://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html参照Google Dremel实现
Apache Drillhttp://incubator.apache.org/drill/参照Google Dremel实现
Apache Tajohttp://tajo.incubator.apache.org/一个运行在YARN上支持SQL的分布式数据仓库
Hivehttp://hive.apache.org/基于Hadoop MapReduce的SQL查询引擎
流式计算Facebook Puma 实时数据流分析
Twitter Rainbird 分布式实时统计系统,如网站的点击统计
Yahoo S4http://incubator.apache.org/s4/

Java开发的一个通用的、分布式的、可扩展的、

分区容错的、可插拔的无主架构的流式系统

Twitter Stormhttp://storm.incubator.apache.org/使用Java和Clojure实现
迭代计算Apache Hamahttps://hama.apache.org/

建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的

计算框架,模仿了Google的Pregel。

Apache Giraphhttps://giraph.apache.org/

建立在Hadoop上的可伸缩的分布式迭代图处理

系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel

HaLoophttps://code.google.com/p/haloop/迭代的MapReduce
Berkeley Sparkhttp://spark.incubator.apache.org/
http://shark.cs.berkeley.edu/

使用Scala语言实现,和MapReduce有较大

的竞争关系,性能强于MapReduce

Twisterhttp://www.iterativemapreduce.org/迭代的MapReduce
离线计算Hadoop MapReducehttp://hadoop.apache.org/经典的大数据批处理系统
键值存储Apache Accumulohttps://accumulo.apache.org/

可靠的、可伸缩的、高性能、排序分布式的键值

存储解决方案,基于单元访问控制以及可定制的

服务器端处理。

Redishttp://redis.io/ 
表格存储Amazon SimpleDBhttp://aws.amazon.com/cn/simpledb/

一个可大规模伸缩、用 Erlang 编写的高可用

数据存储

Dynamohttps://github.com/dynamo/dynamoP2P架构
Cassandrahttp://cassandra.apache.org/P2P架构
HyperTablehttp://hypertable.org/Bigtable的C++开源实现
HBasehttp://hbase.apache.org/Bigtable在Hadoop中的实现
文件存储CouchDBhttp://couchdb.apache.org/面向文档的数据存储
MongoDBhttps://www.mongodb.org/文档数据库
Tachyonhttp://tachyon-project.org/
https://github.com/amplab/tachyon

加州大学伯克利分校的AMPLab基于Hadoop的

核心组件开发出一个更快的版本Tachyon,

它从底层重构了Hadoop平台。

KFShttp://code.google.com/p/kosmosfs/GFS的C++开源版本
HDFShttp://hadoop.apache.org/GFS在Hadoop中的实现
资源管理Twitter Mesoshttp://mesos.apache.org/Google Borg的翻版
Hadoop Yarnhttp://hadoop.apache.org/类似于Mesos
日志收集系统Facebook Scribehttps://github.com/facebook/scribe 
Cloudera Flumehttp://flume.apache.org/ 
消息系统Kafkahttp://kafka.apache.org/ 
分布式服务ZooKeeperhttp://zookeeper.apache.org/

分布式锁服务,PoxOS算法的实现,对应

Google的Chubby

RPCApache Avrohttp://avro.apache.org/Hadoop中的RPC
Facebook Thrifthttp://thrift.apache.org/RPC,支持C++/Java/PHP等众多语言
集群管理Nagioshttp://www.nagios.org/监视系统运行状态和网络信息的监视系统
Gangliahttp://ganglia.sourceforge.net/

UC Berkeley发起的一个开源集群监视项目,

设计用于测量数以千计的节点。

Apache Ambarihttp://ambari.apache.org/管理和监视Apache Hadoop集群的开源框架
基础设施LevelDBhttp://code.google.com/p/leveldb/

Google开发的单机版键值数据库,具有

非常高的写性能

SSTable Sorted String Table
RecordIO  
Protocol Buffershttp://code.google.com/p/protobuf/

Google公司开发的一种数据描述语言,

类似于XML能够将结构化数据序列化,

可用于数据存储、通信协议等方面。

它不依赖于语言和平台并且可扩展性极强。

搜索引擎Nutchhttps://nutch.apache.org/

开源Java 实现的搜索引擎,诞生

Hadoop的地方。

Lucenehttp://lucene.apache.org/

一套信息检索工具包,但并不包含搜索引擎

系统,它包含了索引结构、读写索引工具、

相关性工具、排序等功能。

Solrhttps://lucene.apache.org/solr/Solr是基于Lucene的搜索。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值