[url]http://my.oschina.net/chengxiaoyuan/blog/700263[/url]
为了分析海量数据,需要寻找一款分布式计算的开源项目,以前用的比较多的是hive,但是由于hive任务最终会被解析成MR任务,MR从硬盘读取数据并把中间结果写进硬盘,速度很慢,所以要寻找一款基于内存计算的开源项目,presto是Facebook开源的,基于内存的分布式计算框架。
Presto优点
1. 基于标准的ANSI SQL,有sql基础的都能快速使用
2. 安装部署简单
3. 基于内存计算,不要依赖MR,速度比hive快很多,。
[size=x-large][color=red]详细看原文[/color][/size]
为了分析海量数据,需要寻找一款分布式计算的开源项目,以前用的比较多的是hive,但是由于hive任务最终会被解析成MR任务,MR从硬盘读取数据并把中间结果写进硬盘,速度很慢,所以要寻找一款基于内存计算的开源项目,presto是Facebook开源的,基于内存的分布式计算框架。
Presto优点
1. 基于标准的ANSI SQL,有sql基础的都能快速使用
2. 安装部署简单
3. 基于内存计算,不要依赖MR,速度比hive快很多,。
[size=x-large][color=red]详细看原文[/color][/size]
为提高数据分析效率,本文介绍了一款由Facebook开源的分布式内存计算框架Presto。相较于依赖MapReduce的Hive,Presto直接在内存中进行计算,大幅提升了查询速度。它支持标准SQL语法,便于SQL开发者快速上手。
1060

被折叠的 条评论
为什么被折叠?



