云:用hadoop;
云平台的实质:
存储;计算;网络的虚拟化(抽象);
云计算平台:
Google(gcp); amazon(Aws);
Google云计算组成:
Google File System 文件系统,保存文件;
MapReduce:大规模数据集(大于1TB)的并行运算方式;
BigTable:分布式大规模数据库管理系统;
Hadoop组成:
HDFS是Google File System(GFS)的开源实现。
MapReduce是Google MapReduce的开源实现。
HBase是Google BigTable的开源实现
其它:
Google的:
Dremel查询系统;
BigQuery:BigQuery是一个让用户使用类似SQL的查询来分析TB大小的数据集的云服务。它基于谷歌的Dremel查询系统,可以在其所处的位置(即Google File System或BigTable)上分析数据,并可在谷歌内部使用,分析各种不同的数据集。
Hadoop的:
Hive:Apache的一个开源项目,包括数据管理层以及类SQL的结构化查询语言HiveQL;
···
Apache Drill: Drill是由MapR主导、基于Hadoop之上的类似于谷歌的Demel(或者说BigQuery)交互式查询引擎。
Amazon:
EC2---云中存储容量;
Emr---数据处理格式;
S3---数据服务;
---------------------------------------------------------------------------------------
文章:重要性下序;
高负载低延迟:我们用的是Hadoop+AWS+NoSQL;
http://www.youkuaiyun.com/article/2013-01-17/2813788-analyzing-billions-of-credit-card-transa
在云中使用 MapReduce 和负载平衡
http://www.youkuaiyun.com/article/2010-09-28/280026
图解Hadoop生态系统
http://www.youkuaiyun.com/article/2013-03-11/2814446-Hadoop_ecosystem_infographic
在Hadoop上运行SQL:程序员需知晓的13种数据工具
http://www.youkuaiyun.com/article/2013-02-25/2814255-sql-is-next-for-hadoop