
hive
百物易用是苏生
企鹅小兵,搞搞大数据
展开
-
pyspark中存储完数据后同时创建hive外部表
有需求,各种批处理完数据,因部分分析人员不具备spark的能力, 比较熟悉sql环境操作 需要每个批处理的统计数据文件都能用sql查询, 现阶段zeppelin下hive/presto两种都是类sql供分析人员使用 下面是zeppelin中pyspark下的简便离子,真实环境,需要hadoop+hive+spark环境 并在spark提交时开启hive支持 注意:千万不要想当然认为数据类型,在另外的地方写创建表和添加分区,比如默认计算都是bigint,如果在hive中用int创建不报错,但是使用查询会报错原创 2021-01-08 18:59:48 · 596 阅读 · 0 评论 -
[ hive 日记] hive创建外部表的location无法使用正则匹配,或模糊匹配来指向多个文件/文件夹,只能通过添加partition分区的方式
问题:有一大堆离线加工的数据,需要hive sql创建外部表,像location能按照正则匹配规则来只加载匹配的数据。 结果:查询到,一有资料说,在代码开发中,是可以正则匹配或传入多个path来满足。二,查询官网以及其他资料得知hive sql中创建外部表,location必须明确指定path,无法使用正则或模糊匹配来载入不通路径前缀的文件/文件夹,三,唯一能指向多个不同前缀path的,只能使用添加分区partition时指定另外的location,但是文件是每天产生的,怎么可能每天手动添加一次。 .原创 2020-10-19 17:02:43 · 892 阅读 · 0 评论