hive脚本执行方式

hive脚本的执行方式

hive脚本的执行方式大致有三种:

  • hive控制台执行;
  • hive -e "SQL"执行;
  • hive -f SQL文件执行;
    参考hive用法:
usage: hive
 -d,--define <key=value>          Variable subsitution to apply to hive
                                  commands. e.g. -d A=B or --define A=B
    --database <databasename>     Specify the database to use
 -e <quoted-query-string>         SQL from command line
 -f <filename>                    SQL from files
 -H,--help                        Print help information
 -h <hostname>                    connecting to Hive Server on remote host
    --hiveconf <property=value>   Use value for given property
    --hivevar <key=value>         Variable subsitution to apply to hive
                                  commands. e.g. --hivevar A=B
 -i <filename>                    Initialization SQL file
 -p <port>                        connecting to Hive Server on port number
 -S,--silent                      Silent mode in interactive shell
 -v,--verbose                     Verbose mode (echo executed SQL to the
                                  console)
1.1. hive控制台执行

顾名思义,是进入hive控制台以后,执行sql脚本,例如:

hive> set mapred.job.queue.name=pms;
hive> select page_name, tpa_name from pms.pms_exps_prepro limit 2;
Total MapReduce jobs = 1
Launching Job 1 out of 1
...
Job running in-process (local Hadoop)
2015-10-23 10:06:47,756 null map = 100%,  reduce = 0%
2015-10-23 10:06:48,863 null map = 23%,  reduce = 0%
2015-10-23 10:06:49,946 null map = 38%,  reduce = 0%
2015-10-23 10:06:51,051 null map = 72%,  reduce = 0%
2015-10-23 10:06:52,129 null map = 100%,  reduce = 0%
Ended Job = job_local1109193547_0001
Execution completed successfully
Mapred Local Task Succeeded . Convert the Join into MapJoin
OK
APP首页   APP首页_价格比京东低
APP首页   APP首页_价格比京东低
Time taken: 14.279 seconds
hive> 
1.2. hive -e "SQL"方式执行

利用hive -e "SQL"的方式进入hive控制台并直接执行sql脚本,例如:

hive -e "
set mapred.job.queue.name=pms;
set mapred.job.name=[HQL]exps_prepro_query;

select page_name, tpa_name 
from pms.pms_exps_prepro 
limit 2;"
1.3. hive -f SQL文件方式执行

执行sql文件中的sql脚本,例如:

pms_exps_prepro.sql文件内容如下:

set mapred.job.queue.name=pms;
set hive.exec.reducers.max=48;
set mapred.reduce.tasks=48;
set mapred.job.name=[HQL]pms_exps_prepro;

drop table if exists pms.pms_exps_prepro; 
create table pms.pms_exps_prepro as 
select 
  a.provinceid,
  a.cityid,
  a.ieversion,
  a.platform,
  '${date}' as ds
from track_exps a;

上述文件中的sql脚本接收一个日期,接收参数写法类似${date},执行时如下执行:

date=2015-10-22
hive -f pms_exps_prepro.sql --hivevar date=$date
2. hive转义字符的问题

下面以一个业务场景阐述关于hive转义字符的问题

track_exps记录曝光数据,现在小A希望获取2015-10-20有效的曝光数据
其中有效的曝光记录是指,

  • relatedinfo字段满足数字.数字.数字.数字.数字的格式,
    例如4.4.5.1080100.1

extfield1字段满足request-字符串,section-数字的格式,
例如request-b470805b620900ac492bb892ad7e955e,section-4
对于这个问题,小A写出了如下sql脚本:

select 
    *
from track_exps
where ds = '2015-10-20'
  and relatedinfo rlike '^4.\d+.\d+.\d+.\d+$' 
  and extfield1 rlike '^request.+section-\d+$';

但是由于正则表达式是被包含在sql里面,所以里面的特殊字符需要转义

2.1. hive -e "SQL"的方式执行

改动如下:

hive -e "
set mapred.job.queue.name=pms;

explain select 
    cityid
from track_exps
where ds = '2015-10-20'
  and relatedinfo rlike '\\^4\\.\\\d\\+\\.\\\d\\+\\.\\\d\\+\\.\\\d\\+\\$' 
  and extfield1 rlike '\\^request\\.\\+section\\-\\\d\\+\\$';"

查看执行计划,可以确定正则表达式解析正确了:

...
predicate:
  expr: ((relatedinfo rlike '^4.\d+.\d+.\d+.\d+$') and (extfield1 rlike '^request.+section-\d+$'))
  type: boolean
...

分析如下:

在hive -e “SQL"的执行方式中,”‘正则表达式’",正则表达式先被一个单引号括起来,再被一个双引号括起来的,所以正则表达式里面,\^的第一个\用来解析第二个\,第二个\才真正起到了转义的作用

2.2. hive -f SQL文件的方式执行

改动如下:

pms_exps_prepro.sql文件内容如下:

select 
    *
from track_exps
where ds = '2015-10-20'
  and relatedinfo rlike '\^4\.\\d\+\.\\d\+\.\\d\+\.\\d\+\$' 
  and extfield1 rlike '\^request\.\+section\-\\d\+\$';

分析如下:

不同于hive -e "SQL"的执行方式,因为是sql文件,所以正则表达式只被一个单引号括起来而已,一个\就起到了转义的作用了

### Hive 安装教程 #### 准备工作 为了成功安装 Apache Hive,在环境配置方面需确保已正确部署 Java 和 Hadoop 并设置好相应的环境变量。Java 是运行 Hive 的基础,而 Hadoop 提供分布式存储和计算框架。 #### 下载并解压 Hive 访问官方下载页面获取最新稳定版本的 Hive 压缩包,并将其放置到服务器上的合适位置进行解压缩操作[^1]。 ```bash tar zxvf apache-hive-x.y.z-bin.tar.gz -C /opt/ cd /opt/apache-hive-x.y.z-bin ``` #### 配置环境变量 编辑 `~/.bashrc` 或者 `/etc/profile.d/hive.sh` 文件来添加如下内容: ```bash export HIVE_HOME=/opt/apache-hive-x.y.z-bin export PATH=$PATH:$HIVE_HOME/bin ``` 使更改生效: ```bash source ~/.bashrc # or source /etc/profile.d/hive.sh depending on where you added the export commands. ``` #### 初始化 Metastore 数据库 创建 MySQL 用户及数据库用于保存元数据信息;接着利用 schematool 工具完成建表动作。 ```sql CREATE DATABASE metastore; GRANT ALL PRIVILEGES ON metastore.* TO 'hiveuser'@'localhost' IDENTIFIED BY 'password'; FLUSH PRIVILEGES; schematool -dbType mysql -initSchema ``` #### 修改配置文件 调整 hive-site.xml 来指定连接字符串和其他必要的参数。 ```xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost/metastore?createDatabaseIfNotExist=true</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hiveuser</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>password</value> </property> ``` --- ### 执行 Hive 脚本方法 #### 使用 `-f` 参数执行 SQL 文件 当有一个预先编写好的 `.hql` 文件时,可以使用命令行工具中的 `-f` 参数直接加载该文件作为输入源。 ```bash hive -f /path/to/your_script.hql ``` 此方式适用于批量处理任务或自动化作业场景下的查询提交需求。 #### 利用 `-e` 参数即时执行单条或多条语句 对于简单的测试或是临时性的数据分析请求,则可以直接通过 `-e` 后跟具体要执行的内容来进行交互式的查询活动。 ```bash hive -e "SELECT * FROM table LIMIT 10;" ``` 这种方式适合快速验证想法而不必事先准备单独的脚本文档[^3]。 #### 自动化与调度集成 如果希望定期自动触发某些固定模式的任务流程(比如每日汇总报表),那么可以通过 Oozie 这样的工作流引擎实现更复杂的业务逻辑编排,包括但不限于 Shell、Pig、MapReduce 等不同类型的工作单元组合起来形成完整的 ETL 流程[^4]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值