1.1 Hadoop-impala
hadoop-impala
hadoop-impala
Impala,像其他的Hadoop组件,目的是在分布式环境中处理大量的数据,进行性能测试,使用真实的数据和集群配置。使用一个多节点的集群,而不是一个单一的节点;对运行中包含数据而不是数十GB百万兆字节表查询。用Impala的并行处理技术是最适合的工作负载,超出单个服务器的能力。
当您运行查询返回大量的行时,该处理器的时间花费到漂亮的打印输出是实质性的,给一个不准确的测量的实际查询时间。考虑使用-B选项的Impala-shell命令关掉漂亮的打印输出,和任选的-o选项来存储查询结果文件中而不是打印到屏幕上。看到Impala-shell配置选项的详细信息。