
Hive
山谷來客
君子生非異也,善假於物也。
展开
-
Hive表txt文件导入
---- 建表格式USE dw_htlbizdb;CREATE TABLE CiiFcst_hotel_forecast_result_type_test(masterhotel int COMMENT '酒店ID',ciiquantity double COMMENT '间夜量')comment '测试表'PARTITIONED BY(d STRING COMMEN原创 2016-10-26 18:40:14 · 8630 阅读 · 0 评论 -
pandas方法to_csv生成的数据导入hive方法汇总
step0:建表语句(hive脚本)USE databasename;CREATE TABLE OrderQuantity_Forecast_Table( masterhotel int COMMENT '酒店ID', orderdate string COMMENT '订单日期', city int COMMENT '城市ID', y_原创 2016-11-30 13:49:21 · 4982 阅读 · 0 评论 -
hive自定义函数的python实现
案例1文件1:test.py# -*- coding: utf-8 -*-import sysfor line in sys.stdin: print line.strip('\n')文件2: input.loghello, world!python udf这是一个测试文件sys.stdin如何使用执行结果:[h原创 2016-11-21 16:51:46 · 5488 阅读 · 0 评论 -
获取hive表最新分区(准实时算法)
在对时间要求比较高的流程中,往往会希望获取最新的分区数据。如果采用 select max(分区) as p from table_name; 获取分区,如果表很大时,时间代价很大;另外,如果直接从分区路径判断,虽然速度也会很快,当hive如何数据正在插入更新时被判断,极有可能会出现job还在进行,而判断已经结束,导致错误。 有一个可行的策略,对上一个任务做依赖调度,并且采用show原创 2017-05-22 15:20:48 · 7097 阅读 · 0 评论 -
hive函数regexp_extract提取固定长度的数字信息(正则表达)
hive正则表达regexp_extract(string subject, string regex_pattern, string index)说明:抽取字符串subject中符合正则表达式regex_pattern的第index个部分的字符串举例:--取一个连续17位为数字的字符串,且两端为非数字select regexp_extract('1、非订单号(20位):0原创 2017-06-27 10:00:49 · 19749 阅读 · 0 评论 -
Hive技能
一、动态分区举例:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nostrick;set hive.exec.max.dynamic.partitions.pernode=1000;set hive.exec.max.created.files=100000000;set原创 2016-11-17 14:52:07 · 671 阅读 · 0 评论