
hadoop
lhxsir
Unto a full grown man.
展开
-
Sqoop导入HDFS格式问题
(1)使用Text格式sqoop import --connect jdbc:oracle:thin:@//IP:1521/ASMP2 --username --password --query "SELECT * FROM SBPOPT.TT_MAINTENANCE_TIMES_CORRECT where \$CONDITIONS" --fields-terminated-by '\t' --delete-target-dir --target-dir /user/asmp/hive/asmp/tt_m原创 2020-09-25 10:34:11 · 697 阅读 · 0 评论 -
sqoop常用命令(汇总)
sqoop版本:1.4.6+cdh5.13.3+132oracle导入到hdfs(parquet格式)oracle导入到hdfs(text格式)oracle导入到hdfs(rowid字段)oracle导入到hivehdfs导出到oraclehdfs导出到mysqloracle导入到hdfs(parquet格式)工 中经常使用sqoop导入数据到hdfs上,由于oracle表中有些字段包括/t/r/n等特殊字符,为了数据不出现错位,解析失败等情况,我们采用parquet压缩格式(其中时间存为 "yyyy-原创 2020-06-05 17:19:28 · 1413 阅读 · 0 评论 -
集群迁移hive表(无建表语句)
生产环境账号回收,需要把所有数据表迁移到测试环境!!!上百张表,已经找不到原始建表语句,只能自己想办法了。百度很久,最终决定通过shell把从集群上把建表语句下载下来:新建list_tables.sqluse db;show tables;新建show_create.sqluse db;show create table ${hiveconf:table};download_...原创 2019-05-22 17:48:14 · 270 阅读 · 0 评论 -
hive表数据迁移(生产集群->测试集群)
由于需要在测试环境测试hive表逻辑,但是测试集群没有相关表及数据,所以采用最简单的方式:通过hue从生产集群下载文件,然后通过hue上传到测试集群但是。。hive表是分区的而且每个分区下面都N多个小文件,于是编写shell脚本:#! /bin/bashmkdir -p ./tmp/tablerssc_array=("201901" "201902" "201903" "201904...原创 2019-05-17 11:28:37 · 722 阅读 · 0 评论 -
Java Api访问HDFS报错
Failed to connect to /192.168.1.1:50010 for block, add to deadNodes and continue. java.net.ConnectException: Connection timed out: no further information初步判断是集群IP映射问题,打开CM中HDFS配置,修改如下:打开配置(1) Name...原创 2019-05-06 14:08:08 · 574 阅读 · 0 评论 -
Java api访问集群(Kerberos认证不通过)
本地环境访问集群OK生产环境却报错查找日志信息,发现Kerberos认证的时候,域名解析出现问题?!!登录生产环境ping 043节点,能ping通说明域名是能解析成IP地址的(有DNS服务器)蓝瘦香菇,明明报错是域名解析问题为什么能ping通呢?于是把本地Java访问集群代码改成IP试一试,呵呵报错了Caused by: org.ietf.jgss.GSSException: No v...原创 2019-04-08 18:57:11 · 15760 阅读 · 1 评论 -
集群运行task数量总结
使用集群运行spark-sql计算 初始化大宽表 近20年所有数据!1700个Tasks(计算10min + 写入30min)计算两年数据量:130G计算三年数据量:190G平均每年数据量:60G+(6000万条)提交资源申请:每个executor申请内存为16G--executor-memory 12g \--conf spark.yarn.executor.memoryOv...原创 2019-03-27 11:19:52 · 191 阅读 · 0 评论 -
集群运行task数量总结
使用集群运行spark-sql计算 初始化大宽表 近二十年所有数据!1600个Tasks(计算10min + 写入26min)计算两年数据量:130G计算三年数据量:190G平均每年数据量:60G+(2000万条)提交资源申请:每个executor申请内存为16G--executor-memory 12g \--conf spark.yarn.executor.memoryOv...原创 2019-03-27 10:38:32 · 477 阅读 · 0 评论 -
使用Hadoop的Archive处理小文件
某个hive外部表的文件:归档:hadoop archive -archiveName libarchive.har -p /user/asmp/hive/asmp/tt_repair_deed_tmp2 -r 3 * /user/asmp/hive/asmp/test报错:The resolved paths set is empty. Please check whether t...原创 2019-04-04 15:55:58 · 913 阅读 · 0 评论 -
生产环境Tomcat服务器访问HDFS报错
下载Tomcat日志文件 runtime_info.log查看信息:[WARN ][19-01-11 18:07:19][http-nio-8080-exec-3][*]Exception encountered while connecting to the server : java.lang.IllegalArgumentException: Server has invalid Kerb...原创 2019-01-14 11:39:35 · 694 阅读 · 0 评论 -
查看zookeeper中kafka元数据
shell命令行:cd /opt/cloudera/parcels/CDH/lib/zookeeper/bin./zkCli.sh -server hadoop01:2181zookeeper命令行:ls /brokers/topicsquit原创 2018-08-13 16:36:21 · 2687 阅读 · 0 评论 -
使用sqoop命令把oracle数据导入hdfs/hbase/hive
(一)导入HDFS创建Job#!/bin/bash#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号CONNECTURL=jdbc:oracle:thin:@10.122.5.2:1521:db#使用的用户名ORACLENAME=db#使用的密码ORACLEPASSWORD=123#需要从Oracle中导入的表名oralceTableName=TT#需要从...原创 2018-06-27 15:07:18 · 605 阅读 · 0 评论