大数据Hadoop生态系统解析
1. 数据访问服务
1.1 Apache Spark
Apache Spark 是基于内存技术进行数据处理的开源机器学习和流处理框架。它为程序员提供了一种名为弹性分布式数据集(RDD)的应用程序编程接口数据结构。RDD 是只读的,能将多组数据项分布在具有容错功能的机器集群上。
1.2 Apache Hive
Hive 数据仓库软件可使用 SQL 方便地读取、写入和管理存储在分布式存储中的大型数据集。它能将结构投影到已存储的数据上,并提供命令行工具和 JDBC 驱动,以便用户连接到 Hive。
1.3 Impala
Impala 是 Cloudera 为存储在 Apache Hadoop 集群中的数据提供的 SQL 查询引擎,运行开源大规模并行处理(MPP)。它允许用户对存储在 HDFS 和 Apache HBase 中的数据运行低延迟 SQL 查询,无需额外的数据移动或转换。
1.4 Solr
Apache Solr 是一个用于网站的搜索平台,在企业搜索中很受欢迎,因为它可用于索引和搜索文档及电子邮件附件。它基于 Java 库 Lucene 构建,提供 RESTful XML 接口和 JSON API,用于构建搜索应用程序。Solr 能搜索和索引多个网站,并根据搜索查询的分类返回相关内容推荐。
1.5 Apache Pig
Apache Pig 提供了一种高级语言 Pig Latin,这是一种类似 SQL 的语言,有许多内置操作符,可用于执行连接、过滤、排序等数据操作。它用于在 Hadoop 中执行所有数据操作。其组件
超级会员免费看
订阅专栏 解锁全文

1030

被折叠的 条评论
为什么被折叠?



