【6】ETL上线常用命令

【1.saprk 查看队列】
mapred queue -info root.hypers.hypers-sr-showJobs
mapred queue -info root.hypers.hypers-insight -showJobs
mapred queue -info root.hypers.hypers-a -showJobs
【2.移动队列】
yarn application -movetoqueue appId -queue sr
【3.kill application】
yarn application -list | grep hypers.a
yarn application -kill application_1600846321587_5443
【4.command】
     command  & 让进程在后台运行
【5.jobs 】
    jobs –l 查看后台运行的进程
【6.fg bg】 
    fg %n 让后台运行的进程n到前台来
    bg %n 让进程n到后台去;
【7.nohup】后台执行并重定向输出
    nohup sh run.sh > res.log 2>&1 &
    nohup sh run.sh > res.txt  2>res.log &
【9.hive交互】
      hiveconf mapred.job.queue.name=root.hypers.adhoc
【beeline】
beeline -u "jdbc:hive2://dmp-utility02.loreal.com:10000/;principal=hive/dmp-utility02.loreal.com@LOREAL.COM" \
--hiveconf hive.execution.engine=tez \
--hiveconf hive.tez.container.size=3020 \
--hiveconf tez.queue.name=root.hypers.cpo \
--hiveconf hive.exec.dynamic.partition=true \
--hiveconf hive.exec.dynamic.partition.mode=nonstrict \
--hivevar jira=${jira} \
--hivevar start_date=${start_date} \file:/C:/jobs/20_10/realtime2sbl/v3/sbl_copy/hspser_293.txt
--hivevar end_date=${end_date} \
--hivevar id_type=${id_type} \
-f script/process.sql #该选项表示要执行一个文件
【10.impala】
    impala-shell -i -r worker05
                 -h 万能帮助
                 -r刷新整个元数据
                 -B 去格式化,查询大数据量时可以提高性能
                 -v版本
                 -f 执行查询文件
                 -i连接到对应的impalad
                 -o 保存执行结果到文件
                 -output_file 指定输出文件名
                 -p 显示执行计划
                 -k 使用kerberos 安全加密放时运行
                 -c 忽略错误语句继续执行
                 -l 使用LDAP协议进行访问
                 -d database
                 explain 
【11.spark-sql】
spark-sql \
--master yarn \
--deploy-mode client \
--executor-cores 5 \
--executor-memory 20G \
--driver-memory 4G \
--queue root.hypers.adhoc \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.sql.autoBroadcastJoinThreshold=-1 \
--conf spark.sql.shuffle.partitions=1000 \
--hiveconf hive.metastore.execute.setugi=true \
--hiveconf hive.exec.dynamic.partition=true \
--hiveconf hive.exec.dynamic.partition.mode=nonstrict \
--hiveconf hive.exec.max.dynamic.partitions=10000 \
--hiveconf hive.exec.max.dynamic.partitions.pernode=10000 \
--conf spark.dynamicAllocation.maxExecutors=35 \
-f ../script/tmp.sql >../data/app_tables.csv 2>../log/run.log &

ETL(Extract-Transform-Load)是一种用于数据集成和转换的技术。常用的三种ETL工具如下: 1. Informatica PowerCenter: Informatica PowerCenter是一种功能强大的ETL工具,被广泛应用于数据集成和数据转换任务。它提供了一个直观的可视化界面,方便用户进行数据抽取、转换和加载的配置。PowerCenter支持多种数据源和目标,能够高效地处理大量的数据并保持数据的一致性和准确性。 2. IBM InfoSphere DataStage: IBM InfoSphere DataStage是IBM公司出品的ETL工具,适用于大规模的数据集成项目。它提供了强大的数据转换和清洗功能,能够将数据从不同的源系统中提取,并进行转换和加载到目标系统中。DataStage具有高度可扩展性,可以处理高速和大容量的数据流,同时支持实时和批处理模式。 3. Microsoft SQL Server Integration Services(SSIS): Microsoft SQL Server Integration Services(SSIS)是微软公司开发的一种ETL工具,主要用于数据集成和数据转换任务。SSIS提供了丰富的数据抽取、转换和加载功能,支持多种数据源和目标。它集成于Microsoft SQL Server平台中,可以与其他Microsoft产品(如Microsoft Excel、SharePoint)无缝连接,便于数据的交互和共享。 这些常用的ETL工具都具备数据抽取、转换和加载的功能,可以帮助用户高效地完成各种数据集成任务。用户可以根据自己的需求选择适合的工具,并根据工具提供的功能和性能来进行配置和使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值