面试相关(g)

Hive增量导入是怎么做的

数据表的创建样例: CREATE TABLE YDDT ( ID string, YDJC_ID string,
YDDT_DATA_TYPE string, YDDT_BUSSINESS_NOW bigint,
YDDT_USER_NOW bigint, YDDT_COLLECT_TIME string, YDDT_CREATOR
string, YDDT_DATE string, BACK string

)row format delimited fields terminated by ‘\t’;

数据表的增量导入样例: sqoop import –append –connect
jdbc:mysql://172.20.13.50:3306/TestBigDate –username root –password
123456 –table YDDT_2017_01_16 -m 3 –target-dir
/user/hive/warehouse/yddt –fields-terminated-by ‘\t’

针对的集群版本 :

hdoop:2.7.2

hive:2.1.1

sqoop:1.4.6

**如何查看hadoop集群上job的运行状况

当我们将作业提交到hadoop 的集群上之后,我们会发现一个问题就是无法通过web查看job运行情况,比如启动了多少个map任务,启动多少个reduce任务啊,分配多少个conbiner等等。这些信息都是作业在运行是可以查看的。而我的想要的就是能够通过远程的web可以查看到作业job的运行情况,以及它的详细信息。下面介绍一下查看的方式:

1、当你提交作业时,我们首先通过命令行的方式提交作业后,我们可以打开Yarn的web界面,
ResourceManager http://rm_host:port/    默认 8088.
![这里写图片描述](https://blog.youkuaiyun.com/liujiyu1989/article/details/47829007)
在这个页面上可以看到作业的提交情况,你就会看到job的一个运行情况
当ApplicationMaster启动起来后,此时可以点击ApplicationMaster进入查看作业job在运行的详细状态。
2、HUE:作业浏览
点击Job Browser,可以查看作业列表,并且可以通过点击右上角的”成功”,”正在运行”,”失败”,”停止”来筛选不同状态的作业

Hbase表的rowkey是怎么设计的

RowKey设计应该注意三点:

    唯一原则:在HBase中rowkey可以看成是表的主键,必须保证其唯一性。
    散列原则:由于rowkey是按字典有序的,故应避免rowkey连续有序而导致在某一台RegionServer上堆积的现象。例如可以拼接随机数、将时间戳倒序等。
    长度原则:设计时RowKey要尽量短,这样可以提高有效数据的比例,节省存储空间,也可以提高查询的性能。

用过哪些nosql数据库
redis,hbase

任务调度用什么
azkaban
spark性能调优

数据仓库是怎样管理的
hbase导入的什么数据

你们集群有多少台,有几个主节点这个是其中一个面试官问的问题**

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值