实时Hadoop应用的架构与优化
1. Ampool系统概述
Ampool除了以内存为中心的核心对象存储外,还包含多个优化连接器,能让现有计算引擎高效地从Ampool对象存储中存储和检索数据。目前开箱即用的连接器有Apache Spark、Apache Hive、Apache Trafodion(与Esgyn Corporation合作)、Apache Apex(与Datatorrent, Inc.合作)和CDAP(Cask Data Application Platform,与Cask Data, Inc.合作)。
Ampool本身是一个全分布式存储系统,可维护大量操作持久数据,同时它还提供了多个持久存储连接器,如Hadoop分布式文件系统(HDFS)、Apache Hive和Apache HBase。Ampool可以作为一个独立系统与Hadoop组件一起部署,也可以与现有的Hadoop集群(使用Apache Ambari或Cloudera Manager)一起部署,并且可以使用提供的工具进行监控和管理,也可以将Ampool产生的JMX指标连接到任何兼容JMX的监控系统。
Ampool为(不可变和可变)数据帧、数据集以及事件流扩展提供快速分析存储,为实现Butterfly架构提供了缺失的环节,实现了各种事务和分析工作负载的统一。
2. 案例:广告技术数据管道
以Acme.io公司为例,它是一家热门的内容聚合公司,拥有基于网络的门户和移动应用,有大量用户。公司有众多广告客户,通过独特匹配算法能在毫秒内为用户找到最合适的广告。
Acme.io使用Hadoop集群为用户提供个性化内容推荐,但Hadoop的批处理特性使其无