辅助系统-azkaban

Azkaban工作流调度器安装部署指南
本文档详细介绍了Azkaban的安装过程,包括准备工作、Web服务器和执行服务器的安装、MySQL数据库的配置、脚本导入、SSL证书创建、配置文件设置以及启动步骤。确保在安装过程中遵循指南,以便成功部署并使用Azkaban工作流调度器。

azkaban(工作流调度器)

安装部署

准备工作

Azkaban Web服务器

azkaban-web-server-2.5.0.tar.gz

Azkaban执行服务器 

azkaban-executor-server-2.5.0.tar.gz

MySQL

目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立了 root用户,密码 root.

下载地址:http://azkaban.github.io/downloads.html

安装

将安装文件上传到集群,最好上传到安装 hive、sqoop的机器上,方便命令的执行

在当前用户目录下新建 azkabantools目录,用于存放源安装文件.新建azkaban目录,用于存放azkaban运行程序

azkaban web服务器安装

[hadoop@Linux1 ~]$ tar -zxvf azkaban-web-server-2.5.0.tar.gz -C azkaban

将解压后的azkaban-web-server-2.5.0重新命名 server

azkaban 执行服器安装

[hadoop@Linux1 ~]$ tar –zxvf azkaban-executor-server-2.5.0.tar.gz -C azkaban

将解压后的azkaban-executor-server-2.5.0 重新命名 executor

azkaban脚本导入

[hadoop@Linux1 ~]$ tar –zxvf azkaban-sql-script-2.5.0.tar.gz -C azkaban

将解压后的mysql 脚本,导入到mysql中:

进入mysql

[hadoop@Linux1 azkaban]$ mysql -uroot -proot;

mysql> create database azkaban;

mysql> use azkaban;

Database changed

mysql> source /home/hadoop/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql;

 

创建SSL配置

azkaban的web页面用加密的https访问,所以需要生成证书。

参考地址: http://docs.codehaus.org/display/JETTY/How+to+configure+SSL

证书生成命令: keytool -keystore keystore -alias jetty -genkey -keyalg RSA

[hadoop@Linux1 ~]$ keytool -keystore keystore -alias jetty -genkey -keyalg RSA

运行此命令后,会提示输入当前生成 keystor的密码及相应信息,输入的密码请劳记,信息如下:

输入keystore密码: 六位密码

再次输入新密码:六位密码

您的名字与姓氏是什么?

  [Unknown]: 可空

您的组织单位名称是什么?

  [Unknown]: 可空

您的组织名称是什么?

  [Unknown]: 可空

您所在的城市或区域名称是什么?

  [Unknown]: 可空

您所在的州或省份名称是什么?

  [Unknown]: 可空

该单位的两字母国家代码是什么

  [Unknown]:  可空

CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN 正确吗?

  [否]:  y

输入<jetty>的主密码

        (如果和 keystore 密码相同,按回车): 

再次输入新密码:

完成上述工作后,将在当前目录生成 keystore 证书文件,将keystore 考贝到 azkaban web服务器根目录中.如:cp keystore azkaban/server

配置文件

注:先配置好服务器节点上的时区

  1. 先生成时区配置文件Asia/Shanghai,用交互式命令 tzselect 即可
  2. 拷贝该时区文件,覆盖系统本地时区配置

cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime  

 

修改web服务器中azkaban.properties文件

[hadoop@Linux1 ~]$ cd apps/azkaban/server/conf/

[hadoop@Linux1 ~]$ vi azkaban.properties

内容说明如下:

#Azkaban Personalization Settings
azkaban.name=Test                                  #服务器UI名称,用于服务器上方显示的名字
azkaban.label=My Local Azkaban                     #描述
azkaban.color=#FF3601                              #UI颜色
azkaban.default.servlet.path=/index                #
web.resource.dir=web/                              #默认根web目录
default.timezone.id=Asia/Shanghai                  #默认时区,已改为亚洲/上海 默认为美国


#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager     #用户权限管理默认类
user.manager.xml.file=conf/azkaban-users.xml       #用户配置,具体配置参加下文

#Loader for projects
executor.global.properties=conf/global.properties  #global配置文件所在位置
azkaban.project.dir=projects                       #
database.type=mysql                                #数据库类型
mysql.port=3306                                    #端口号
mysql.host=localhost                               #数据库连接IP
mysql.database=azkaban                             #数据库实例名
mysql.user=root                                    #数据库用户名
mysql.password=root                                #数据库密码
mysql.numconnections=100                           #最大连接数


# Velocity dev mode
velocity.dev.mode=false                            #Jetty服务器属性
jetty.maxThreads=25                                #最大线程数
jetty.ssl.port=8443                                #Jetty SSL端口
jetty.port=8081                                    #Jetty端口
jetty.keystore=keystore                            #SSL文件名
jetty.password=123456                              #SSL文件密码
jetty.keypassword=123456                           #Jetty主密码 与 keystore文件相同
jetty.truststore=keystore                          #SSL文件名
jetty.trustpassword=123456                         #SSL文件密码


# 执行服务器属性
executor.port=12321                                #执行服务器端口


# 邮件设置
mail.sender=xxxxxxxx@163.com                       #发送邮箱
mail.host=smtp.163.com                             #发送邮箱smtp地址
mail.user=xxxxxxxx                                 #发送邮件时显示的名称
mail.password=**********                           #邮箱密码
job.failure.email=xxxxxxxx@163.com                 #任务失败时发送邮件的地址
job.success.email=xxxxxxxx@163.com                 #任务成功时发送邮件的地址
lockdown.create.projects=false                     #
cache.directory=cache                              #缓存目录

azkaban 执行服务器executor配置

进入执行服务器安装目录conf,修改azkaban.properties

[hadoop@Linux1 ~]$ cd apps/azkaban/executor/conf/

vi azkaban.properties

#Azkaban
default.timezone.id=Asia/Shanghai                        #时区

#Azkaban JobTypes 插件配置
azkaban.jobtype.plugin.dir=plugins/jobtypes             #jobtype 插件所在位置

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

#数据库设置
database.type=mysql                                     #数据库类型(目前只支持mysql)
mysql.port=3306                                         #数据库端口号
mysql.host=192.168.20.200                               #数据库IP地址
mysql.database=azkaban                                  #数据库实例名
mysql.user=root                                         #数据库用户名
mysql.password=root                                     #数据库密码
mysql.numconnections=100                                #最大连接数

#执行服务器配置
executor.maxThreads=50                                  #最大线程数
executor.port=12321                                     #端口号(如修改,请与web服务中一致)
executor.flow.threads=30                                #线程数


进入azkaban web服务器conf目录,修改azkaban-users.xml用户配置

vi azkaban-users.xml 增加 管理员用户

<azkaban-users>
        <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
        <user username="metrics" password="metrics" roles="metrics"/>
        <user username="admin" password="admin" roles="admin,metrics" />---待添加
        <role name="admin" permissions="ADMIN" />
        <role name="metrics" permissions="METRICS"/>
</azkaban-users>

启动

web服务器

在azkaban web服务器目录下执行启动命令

bin/azkaban-web-start.sh

注:在web服务器根目录运行

或者启动到后台

nohup  bin/azkaban-web-start.sh  1>/tmp/azstd.out  2>/tmp/azerr.out &

启动azkaban后报错信息为:

Invalid maximum heap size: -Xmx4096m
The specified size exceeds the maximum representable size.
Could not create the Java virtual machine.
解决方法:
请修改文件azkaban\azkaban-web-2.5.0\bin\azkaban-web-start.sh
将文件中的  AZKABAN_OPTS="-Xmx4G" 修改为  AZKABAN_OPTS="-Xmx2G"
设置的大小按照机器的存储而定,如果设置太大可能无法启动,设置太小会内存溢出
否则启动报错

 

执行服务器

在执行服务器目录下执行启动命令

bin/azkaban-executor-start.sh

注:只能要执行服务器根目录运行

 

启动完成后,在浏览器(建议使用谷歌浏览器)中输入https://服务器IP地址:8443 ,即可访问azkaban服务了.在登录中输入刚才新的户用名及密码,点击 login.

https://linux1:8443

 

一、数据采集层:多源人脸数据获取 该层负责从不同设备 / 渠道采集人脸原始数据,为后续模型训练与识别提供基础样本,核心功能包括: 1. 多设备适配采集 实时摄像头采集: 调用计算机内置摄像头(或外接 USB 摄像头),通过OpenCV的VideoCapture接口实时捕获视频流,支持手动触发 “拍照”(按指定快捷键如Space)或自动定时采集(如每 2 秒采集 1 张),采集时自动框选人脸区域(通过Haar级联分类器初步定位),确保样本聚焦人脸。 支持采集参数配置:可设置采集分辨率(如 640×480、1280×720)、图像格式(JPG/PNG)、单用户采集数量(如默认采集 20 张,确保样本多样性),采集过程中实时显示 “已采集数量 / 目标数量”,避免样本不足。 本地图像 / 视频导入: 支持批量导入本地人脸图像文件(支持 JPG、PNG、BMP 格式),自动过滤非图像文件;导入视频文件(MP4、AVI 格式)时,可按 “固定帧间隔”(如每 10 帧提取 1 张图像)或 “手动选择帧” 提取人脸样本,适用于无实时摄像头场景。 数据集对接: 支持接入公开人脸数据集(如 LFW、ORL),通过预设脚本自动读取数据集目录结构(按 “用户 ID - 样本图像” 分类),快速构建训练样本库,无需手动采集,降低系统开发与测试成本。 2. 采集过程辅助功能 人脸有效性校验:采集时通过OpenCV的Haar级联分类器(或MTCNN轻量级模型)实时检测图像中是否包含人脸,若未检测到人脸(如遮挡、侧脸角度过大),则弹窗提示 “未识别到人脸,请调整姿态”,避免无效样本存入。 样本标签管理:采集时需为每个样本绑定 “用户标签”(如姓名、ID 号),支持手动输入标签或从 Excel 名单批量导入标签(按 “标签 - 采集数量” 对应),采集完成后自动按 “标签 - 序号” 命名文件(如 “张三
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值