Hive增量导入是怎么做的
数据表的创建样例: CREATE TABLE
YDDT
(ID
string,YDJC_ID
string,
YDDT_DATA_TYPE
string,YDDT_BUSSINESS_NOW
bigint,
YDDT_USER_NOW
bigint,YDDT_COLLECT_TIME
string,YDDT_CREATOR
string,YDDT_DATE
string,BACK
string)row format delimited fields terminated by ‘\t’;
数据表的增量导入样例: sqoop import –append –connect
jdbc:mysql://172.20.13.50:3306/TestBigDate –username root –password
123456 –table YDDT_2017_01_16 -m 3 –target-dir
/user/hive/warehouse/yddt –fields-terminated-by ‘\t’针对的集群版本 :
hdoop:2.7.2
hive:2.1.1
sqoop:1.4.6
**如何查看hadoop集群上job的运行状况
当我们将作业提交到hadoop 的集群上之后,我们会发现一个问题就是无法通过web查看job运行情况,比如启动了多少个map任务,启动多少个reduce任务啊,分配多少个conbiner等等。这些信息都是作业在运行是可以查看的。而我的想要的就是能够通过远程的web可以查看到作业job的运行情况,以及它的详细信息。下面介绍一下查看的方式:
1、当你提交作业时,我们首先通过命令行的方式提交作业后,我们可以打开Yarn的web界面,
ResourceManager http://rm_host:port/ 默认 8088.

在这个页面上可以看到作业的提交情况,你就会看到job的一个运行情况
当ApplicationMaster启动起来后,此时可以点击ApplicationMaster进入查看作业job在运行的详细状态。
2、HUE:作业浏览
点击Job Browser,可以查看作业列表,并且可以通过点击右上角的”成功”,”正在运行”,”失败”,”停止”来筛选不同状态的作业
Hbase表的rowkey是怎么设计的
RowKey设计应该注意三点:
唯一原则:在HBase中rowkey可以看成是表的主键,必须保证其唯一性。
散列原则:由于rowkey是按字典有序的,故应避免rowkey连续有序而导致在某一台RegionServer上堆积的现象。例如可以拼接随机数、将时间戳倒序等。
长度原则:设计时RowKey要尽量短,这样可以提高有效数据的比例,节省存储空间,也可以提高查询的性能。
用过哪些nosql数据库
redis,hbase
任务调度用什么
azkaban
spark性能调优
数据仓库是怎样管理的
hbase导入的什么数据
你们集群有多少台,有几个主节点这个是其中一个面试官问的问题**