Hive调用python脚本

最新推荐文章于 2021-10-24 13:52:33 发布

小布-01

最新推荐文章于 2021-10-24 13:52:33 发布

阅读量6.1k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： hive python hadoop 文章标签： hive使用 python脚本

本文链接：https://blog.youkuaiyun.com/weixin_41907511/article/details/84848578

hadoop 同时被 3 个专栏收录

22 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

hive

14 篇文章

订阅专栏

python

3 篇文章

订阅专栏

Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能，本实例通过python脚本对电影数据进行清洗，帮助读者了解hive调用python脚本的整个流程。

操作步骤：

1、创建基表

CREATE TABLE u_data (
      userid INT,   //用户ID
      movieid INT,  //电影ID
      rating INT,    //电影评分
      unixtime STRING) //时间戳
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '\t
    STORED AS TEXTFILE;

2、加载数据

（1）下载数据源到/home/hadoop/data/目录：

wget http://files.grouplens.org/datasets/movielens/ml-100k.zip

（2）解压：

unzip ml-100k.zip

（3）加载数据：

hive> LOAD DATA LOCAL INPATH '/home/hadoop/workspace/dhp/ml-100k/u.data' 
hive> OVERWRITE INTO TABLE u_data;

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小布-01

关注关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

python调用hive脚本_python 中写hive 脚本

weixin_40005454的博客

02-04

828

1、直接执行.sql脚本import numpy as npimport pandas as pdimport lightgbm as lgbfrom pandas import DataFramefrom sklearn.model_selection import train_test_splitfrom io import StringIOimport gcimport sysimport ...

Hive 函数 + Shell编程的具体实践与运用

Python+大数据+数据分析+自动化+Vue组件开发

06-12

806

大数据开发，测试必备技能！

1 条评论您还未登录，请先登录后发表或查看评论

如何在python中写hive脚本

09-18

主要介绍了如何在python中写hive脚本,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

hive调用python脚本

weixin_30410119的博客

02-26

1116

（原创） hive可以调用python的脚本，方法是： add file /path_of_python_file/py_file.py; select transform(col1,col2,col3...) using 'python py_file.py' as (out1,out2,out3...) from table; transform 的参数col1，col...

#hive#HIVE中使用python实现UDF

热门推荐

duqi_yc的专栏

11-02

1万+

HIVE中使用python实现UDF HIVE，FACEBOOK的一个开源项目，利用类SQL的语句（HiveQL）来加快一般的MapReduce的开发过程。 UDF，user defined function, 因为HIVE毕竟不是一般的关系型数据库，支持的HQL有限，如果要实现复杂的功能，就要通过自己定义函数来帮助实现。 HIVE应该利用PIPE的原理，将自己查询的结果放到

shell中循环调用hive sql 脚本的方法

09-15

本文将详细介绍如何在Shell脚本中循环调用Hive SQL语句，以便实现批量处理数据或者执行一系列相关的查询操作。首先，我们要理解Shell脚本的基本结构和Hive SQL的功能。Shell脚本是一种解释型的编程语言，主要用于...

hive 使用脚本清洗数据：时间戳转日期

weixin_30384217的博客

08-30

215

import sys import datetime for line in sys.stdin: line = line.strip() userid, movieid, rating, unixtime = line.split('\t') weekday = datetime.datetime.fromtimestamp(float(unixtime)).i...

hive调用python

weixin_30546189的博客

06-19

134

python： # -*- coding: utf-8 -*- import sys for line in sys.stdin: values = line.split('\t') value = [i.strip() for i in values] print '\t'.join([value[0],value[1]) hql: add file /data...

Hive的hql命令的三种执行方式

xieganyu3460的博客

09-19

4653

Hive的hql命令的三种执行方式： 1、CLI 方式直接执行 shell 中键入hive，即可启动hive的cli交互模式 2、作为字符串通过shell调用hive –e执行（-S开启静默，去掉”OK”，”Time taken”） hql作为字符串在shell脚本中执行，如 hive -e "use ${database};select * from tb" ...

shell脚本调用python脚本，并传参

09-04

shell脚本调用python脚本，并传参。本文以删除指定文件夹下，以当前时间为基准的指定天数以前的文件，包括空文件夹

Hive调用Python脚本异常

dacoolbaby的专栏

03-05

517

我使用的是Hive 0.10和Hadoop 1.1.1。在家里的环境是Hive 0.9和Hadoop 1.0.4. Hive可以使用Python脚本大大地提高数据处理的开发效率，使用MapReduce的方式将数据处理成想要的结果。我们使用ADD FILE 为Hive增加一个脚本，或者Jar包。有两种方式： ADD FILE {env:HOME}/your_file/y...

python调用hive脚本_Hive调用Python脚本异常

weixin_39662611的博客

12-06

125

我使用的是Hive 0.10和Hadoop 1.1.1。在家里的环境是Hive 0.9和Hadoop 1.0.4.Hive可以使用Python脚本大大地提高数据处理的开发效率，使用MapReduce的方式将数据处理成想要的结果。我们使用ADD FILE 为Hive增加一个脚本，或者Jar包。有两种方式：ADD FILE {env:HOME}/your_file/your_script.pyADD ...

hive python脚本,Hive调用Python脚本错误

weixin_30767895的博客

03-19

257

hive SQL调用python脚本遇到的几个问题

空中的鱼

11-21

483

sql调用python获取数据字段个数太多源码： for line in sys.stdin: (tid, dp_id, customerno,...此处省略多个字段，共n个字段) = line.strip().split() 异常：图1 原因：根据测试，split分割数据以后获取n+m个数值，与预期的n个数值不对应，spl...

执行HIVE通用脚本Python实现

ArYe

10-24

915

离线计算 T+1 hive -e PYTHON2 PYTHON3 脚本 shell beeline

hive 使用python脚本

u014806028的博客

05-17

3747

python数据导入hive_Hive -调用Python 文件处理数据

weixin_39765339的博客

11-28

539

我们会对存储在hive表格中的数据基于每一行进行数据清理，统计，计算的工作，这个时候我们可以在hive中调用Python脚本对数据进行处理。程序代码主要分成两个部分，一个hive脚本，一个是Python脚本，两者相互依赖。hive脚本有两个目的，首先是选择相应的数据（使用sql），然后将数据导入到python脚本中进行处理（使用transform）。python脚本目的是读取数据并进行相应的数据处...

Hive调用python处理本地文件

qq_41448372的博客

04-30

752

.在python编译器中写python文件（本次操作是处理电话号码的数据混乱问题）: import sys for line in sys.stdin: for word in line: if ord(word)<48 or ord(word)>57: line=line.replace(...

通过java调用shell脚本，在shell脚本中执行hive -f命令

05-26

可以使用Java的`ProcessBuilder`类来调用Shell脚本并执行Hive命令。首先，你需要编写一个Shell脚本，例如： ```sh #!/bin/bash hive -f /path/to/hive/script.hql ``` 其中，`/path/to/hive/script.hql`是你要执行的Hive脚本的路径。然后，在Java代码中，可以使用以下代码来调用Shell脚本： ```java String[] command = {"sh", "/path/to/shell/script.sh"}; ProcessBuilder pb = new ProcessBuilder(command); pb.redirectErrorStream(true); Process process = pb.start(); ``` 其中，`/path/to/shell/script.sh`是你刚才编写的Shell脚本的路径。`pb.redirectErrorStream(true)`表示将标准错误输出流合并到标准输出流中。`pb.start()`表示启动进程并执行Shell脚本。你也可以使用`process.waitFor()`方法来等待Shell脚本执行完毕。注意，执行Hive命令需要配置好Hive环境变量和Hadoop配置文件的路径。