Hadoop 上的 SQL 技术:从 Impala 到 Spark SQL
1. Impala 中的数据查询与元数据刷新
在 Hadoop 生态系统中,Impala 和 Hive 是常用的 SQL 查询工具。当我们在 Hive 中查询股票数据时,比如查询特斯拉(TSLA)的股票信息,可以使用如下命令:
hive> select * from stocks where sym = "TSLA";
执行该命令后,会得到类似如下的结果:
TSLA
2014-06-25
236.0
236.0
236.0
236.0
38469600
236.0
然而,当在 Impala 中执行相同的查询时,可能不会得到任何结果:
> select * from stocks where sym = "TSLA";
Returned 0 row(s) in 0.33s
这是因为 Impala 的元数据可能没有及时更新。此时,我们可以使用 REFRESH 命令来解决这个问题:
> REFRESH stocks;
> select * from stocks where sym = "TSLA";
+------+------------+------+------+-----+-------+----------+----
超级会员免费看
订阅专栏 解锁全文
1768

被折叠的 条评论
为什么被折叠?



