
Hive
mulangren1988
开朗乐观,积极上进
展开
-
hive mapreduce reducer 调优
hive mapreduce reducer 调优原创 2017-07-20 09:52:11 · 1142 阅读 · 0 评论 -
2017-07-20#Hive Analytics Functions : row_number rank over
2017-07-20#Hive Analytics Functions : row_number rank over在做数据分析是,会统计用户访问app不同页面的开始时间,理论上同一个用户访问不同页面的开始时间应该不同。为了排查app端是否存在bug,用到row_number() over () 窗口函数。row_number oversql如下selecta.gu_id,startti...原创 2019-02-22 11:25:15 · 342 阅读 · 0 评论 -
我国大陆地区的手机号正则匹配
我国大陆地区的手机号正则匹配-- hive sql 测试通过select phone_num RLIKE "^(\\+?86)?((13[0-9])|(14[5,7])|(15[0-3,5-9])|(17[0,3,5-8])|(18[0-9])|161|166|198|199|(147))\\d{8}$"在线正则测试http://tool.oschina.net/regex#测试的时...原创 2019-02-22 10:28:45 · 882 阅读 · 0 评论 -
Hive 正则提取英文名称和中文名称
Hive 正则提取英文名称和中文名称提取英文名称select regexp_extract("Aptamil 爱他美(德国)",'([A-Z][a-z]*(\\s|$))+', 1);select regexp_extract("Skin 伊思",'(\\w*(\\s|$))+', 1);select regexp_extract("SKIN 伊思",'(\\w*(\\s|$))+',..原创 2018-11-12 16:51:30 · 9400 阅读 · 6 评论 -
2018-09-27#hive数据检查的常见方式
hive数据检查的常见方式主键上的数据是否用重复select phone_segment,count(1) as cntfrom dw.dim_phone_segment_info agroup by phone_segmenthaving cnt > 1;对比去重前后的数据量select count(1), count(distinct phone_num) from dw...原创 2018-09-27 20:44:06 · 753 阅读 · 0 评论 -
2018-04-28 hive 常用的日期函数
先看代码最后的私房先看代码## 当前日期和时间SELECT current_timestamp();-- 2018-04-28 11:46:03.136## 获取当前日期,当前是 2018-04-28SELECT current_date;ORSELECT current_date();-- 2018-04-28## 获取unix系统下的时间...原创 2018-04-28 15:02:05 · 1495 阅读 · 0 评论 -
hive 非分区表 导入csv数据
非分区表-- 示例1:use temp;drop table tmp_cuiwei_main_recommend;create table IF NOT EXISTS tmp_cuiwei_main_recommend( sml_sa_id int,sml_set_time int,sml_cancel_ti...原创 2018-05-03 16:25:12 · 595 阅读 · 0 评论 -
hive mapjoin 方案
hive mapjoin 使用方式和限制原创 2017-09-22 10:44:41 · 1478 阅读 · 0 评论 -
hive-修改hive表字段的注释
修改hive表字段的注释修改之前hive> desc dw.fct_user_ctag_today;OKuser_id int 用户id user_tag int 精准化新老客标签 rpt_tag原创 2017-08-23 18:00:43 · 32033 阅读 · 0 评论 -
hive weekofyear 怪异的姿势
hive weekofyear : Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row原创 2017-07-19 19:58:56 · 1273 阅读 · 0 评论 -
org.apache.hadoop.mapreduce.task.reduce.Shuffle error in shuffle in fetcher
org.apache.hadoop.mapreduce.task.reduce.Shuffle error in shuffle in fetcher 分析及方案原创 2017-07-19 14:11:29 · 6157 阅读 · 1 评论 -
Hive Analytics Functions row_number rank over partition by
Hive Analytics Functions row_number rank over partition by原创 2017-07-20 15:20:12 · 707 阅读 · 0 评论 -
hive多分区写入
hive多分区写入-- 多分区写入set mapred.max.split.size=256000000;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions=800;set hive.exec.max.dynamic.partitions.pernode=800;INS...原创 2019-02-22 14:54:14 · 3741 阅读 · 0 评论