Hadoop生态圈-Azkaban实现hive脚本执行

最新推荐文章于 2023-07-09 22:15:45 发布

转载最新推荐文章于 2023-07-09 22:15:45 发布 · 238 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yinzhengjie/p/9233852.html

本文介绍如何使用Azkaban平台执行Hive SQL脚本，并完成数据处理任务。主要内容包括创建job文件、压缩配置文件、上传及执行job文件等步骤。

　　　　　　　　　　　　　　　　Hadoop生态圈-Azkaban实现hive脚本执行

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　本篇博客中在HDFS分布式系统取的数据，而这个数据的是有之前我通过MapReduce生产的数据，详情请参考：https://www.cnblogs.com/yinzhengjie/p/9233393.html

1>.创建job文件

use yinzhengjie;
create table if not exists az_wc(word string, count int) row format delimited fields terminated by '\t';
load data inpath '/azkaban_out/part-r-00000' into table az_wc;
create table if not exists az_top3 like az_wc;
insert overwrite table az_top3 select * from az_wc order by count desc limit 3;

创建SQL文件（hive.sql）

type=command
command=hive -f hive.sql

创建hive的job文件用来调用SQL文件（hive.job）

2>.压缩配置文件

3>.将压缩后的job文件上传到azkaban的WEB界面中

4>.执行hive任务

5>.点击Execute

6>.点击继续

7>.等待执行结束

8>.查看执行状态

9>. 任务执行成功

10>.登录到hive服务器中，查看是否成功将数据导入到hive中

转载于:https://www.cnblogs.com/yinzhengjie/p/9233852.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34026484

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Azkaban实战-Hive脚本任务

Movle

05-17

2227

1.创建job描述文件和hive脚本 (1)Hive脚本：student.sql vim student.sql 添加内容： use default; drop table student; create table student(id int, name string) row format delimited fields terminated by '\t'; load data local inpath '/opt/module/datas/student.txt' into table stu

Hadoop生态简介，Hive、Spark、HBase等

最新发布

chuige2013的博客

10-26

1623

Zookeeper采用选举机制选举Leader，其它节点作为Follower或Observer存在，当Leader挂掉之后，会重新选举Leader，但选举的过程需要时间，对于Hadoop这样的计算性集群而言可能不算什么，但对于电商系统这样高速运算的系统而言，集群停摆几秒就可能导致非常严重的后果，所以之前Dubbo这样的中间件使用Zookeepr作为注册中心就具有一定的风险，只要Leader停摆，集群就需要一直等，等待新的Leader上线。

参与评论您还未登录，请先登录后发表或查看评论

71 Azkaban HIVE脚本任务

阿甘兄

08-09

1160

创建job描述文件和hive脚本 Hive脚本： test.sql use default; drop table aztest; create table aztest(id int,name string) row format delimited fields terminated by ','; load data inpath '/aztest/hiveinput' into table...

Azkaban 执行hive脚本并从文件导入数据(org.apache.hadoop.security.AccessControlException: Permission denied...)

qq_18453581的博客

05-22

1014

报异常 FAILED: Error in metadata: MetaException(message:Got exception: org.apache.hadoop.security.AccessControlException org.apache.hadoop.security.AccessControlException: Permission denied: user=aseema...

黑猴子的家：Azkaban2.5.0之Hive脚本任务

黑猴子的博客

05-30

400

1、准备数据 [alex@hadoop102 module]$ vim data/student.txt 1001 zhangsan 1002 lisi 1003 wangwu 1004 xiaoliu 2、编写Hive脚本 [alex@hadoop102 ~]$ cd /opt/module/azkaban/jobs [alex@hadoop102 jobs]$ touc...

初识大数据Hadoop生态圈：搭建Hadoop伪分布式环境

weixin_73609140的博客

05-28

979

上一篇我搭建完成了Linux系统以及配置，本篇文章进行我的项目回顾和Hadoop环境准备什么是网站日志？网站，或者说web服务器在运行过程中如果有用户访问了我们的服务器，它会把信息以文本形式自动记录下来，这个文件通常以.log结尾，一般称为服务器日志。通过对网站日志的信息的统计分析，可以帮我们了解整个网站的运行情况，为公司后续的优化升级、公司营销策略等等提供依据。通常来说这个日志记录都会非常的大，特别是一些超大型的网站，有一个用户进行访问它就会记录下来，想象一下这个数据集会有多大？

「大数据集群的搭建和使用」背景知识：大数据Hadoop生态圈介绍

weixin_62909516的博客

07-09

2317

HDFS 是 Hadoop 的主要存储系统，为大数据提供可扩展的、高容错的、可靠的和具有成本效益的数据存储。Hadoop是一个庞大的家族，包含存储，计算等一系列产品组件，需要了解其中的一系列组件，包括HDFS，MapReduce，Yarn，Hive，HBase，ZooKeeper，Flume，Kafka，Sqoop，HUE，Phoenix，Impala，Pig，Oozie，Spark等，知道其干什么，维基百科定义。它的任务包括加载数据，应用所需的过滤器并以所需的格式转储数据。它是容错和可靠的机制。

精选资源

hadoop大数据生态圈工具配置与应用.pdf

12-09

【Hadoop大数据生态圈工具配置与应用】 Hadoop是Apache软件基金会的一个开源项目，它提供了一个分布式文件系统（HDFS）和一个并行处理框架MapReduce，使得在大规模数据集上进行计算成为可能。Hadoop生态系统的组件...

Hadoop Ecosystem（Hadoop生态环境－130多个相关开源项目）

hugowang的博客

10-29

4270

Apache Hadoop项目开发用于可靠、可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，从而在计算机集群之上提供高可用性服务，每个计算机都可能容易出现故障。此文是...

azkaban 执行hiveshell脚本找不到tez包

一只程序猿的博客

12-22

389

azkaban 执行hive ，shell脚本找不到tez包

azkaban调度任务的时候报错：hive: command not found

jackfeng86的专栏

12-27

1982

azkaban调度任务的时候报错：hive: command not found，具体错误如下： 27-12-2021 15:06:26 CST hdfs_to_ods_log INFO - ================== 日志日期为 2021-12-25 ================== 27-12-2021 15:06:26 CST hdfs_to_ods_log INFO - /home/test/bin/hdfs_to_ods_log.sh: line 18: hive: comman

任务调度器之Azkaban的使用

积跬步，至千里。

06-29

1438

Azkaban是一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。在大数据领域中，用于运行Hadoop作业。

工作流调度系统Azkaban

helloworld999999的博客

01-25

1193

一、概述 1.1 工作流调度系统一个完整的数据分析系统，通常都是由大量任务单元组成： shell脚本chengx java程序 mapreduce程序 hive脚本等各任务单元之间存在时间先后及依赖关系，为了很好的组织起这样的复杂执行计划，需要一个工作流调度系统来调度任务的执行。假如，我有这样⼀一个需求，某个业务系统每天产⽣生20G原始...

【大数据各平台组件搭建使用精进】azkaban任务调度测试及实例（14）

hx1156477702的博客

09-30

723

azkaban测试，azkaban的hdfs任务调度，azkaban的mapreduce任务调度

hive timestamp转化为string_Hive数据仓库实战

weixin_39612896的博客

11-24

3006

Hive作为大数据平台Hadoop之上的主流应用，公司一般都是用它作为公司的数据仓库，分布式机器学习的训练数据和数据处理也经常用它来处理，下面介绍下它的常用功能。 Hive原理和功能介绍 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive是基于Hado...

Hive大数据离线应用开发

05-15

本章将为大家解答以下问题：基于Hadoop的Hive工具的基本概念以及配置和启动。Hive的数据类型、表以及数据操作。如何用Hive进行数据查询。Hive的内置函数。如何用Hive实现电商的自动推荐。如何进行Sqoop的应用开发。Hive的UDF自定义函数介绍和应用。azkaban的介绍和实际应用。

Azkaban之hive的job

keep_walk的博客

10-29

2438

1、前提是安装好azkaban 2、从官网上下载azkaban-jobtype-2.5.0.tar.gz这个压缩包下载地址为：https://s3.amazonaws.com/azkaban2/azkaban-plugins/2.5.0/azkaban-jobtype-2.5.0.tar.gz 3、把下载好的压缩包移动到你的executor服务的安装目录下的 plugins下例如：azka...

Azkaban实战，Command类型单一job示例，任务中执行外部shell脚本，Command类型多job工作flow,HDFS操作任务，MapReduce任务，HIVE任务