面试相关（g)

Hive增量导入与Hadoop集群管理

最新推荐文章于 2021-04-23 18:05:00 发布

原创最新推荐文章于 2021-04-23 18:05:00 发布 · 309 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #面试

面试专栏收录该内容

8 篇文章

订阅专栏

Hive增量导入是怎么做的

数据表的创建样例： CREATE TABLE YDDT ( ID string, YDJC_ID string,
YDDT_DATA_TYPE string, YDDT_BUSSINESS_NOW bigint,
YDDT_USER_NOW bigint, YDDT_COLLECT_TIME string, YDDT_CREATOR
string, YDDT_DATE string, BACK string

)row format delimited fields terminated by ‘\t’;

数据表的增量导入样例： sqoop import –append –connect
jdbc:mysql://172.20.13.50:3306/TestBigDate –username root –password
123456 –table YDDT_2017_01_16 -m 3 –target-dir
/user/hive/warehouse/yddt –fields-terminated-by ‘\t’

针对的集群版本：

hdoop:2.7.2

hive:2.1.1

sqoop:1.4.6

**如何查看hadoop集群上job的运行状况

当我们将作业提交到hadoop 的集群上之后，我们会发现一个问题就是无法通过web查看job运行情况，比如启动了多少个map任务，启动多少个reduce任务啊，分配多少个conbiner等等。这些信息都是作业在运行是可以查看的。而我的想要的就是能够通过远程的web可以查看到作业job的运行情况，以及它的详细信息。下面介绍一下查看的方式：

1、当你提交作业时，我们首先通过命令行的方式提交作业后，我们可以打开Yarn的web界面，
ResourceManager http://rm_host:port/    默认 8088.
![这里写图片描述](https://blog.youkuaiyun.com/liujiyu1989/article/details/47829007)
在这个页面上可以看到作业的提交情况，你就会看到job的一个运行情况
当ApplicationMaster启动起来后，此时可以点击ApplicationMaster进入查看作业job在运行的详细状态。
2、HUE:作业浏览
点击Job Browser，可以查看作业列表，并且可以通过点击右上角的”成功”,”正在运行”,”失败”,”停止”来筛选不同状态的作业

Hbase表的rowkey是怎么设计的

RowKey设计应该注意三点：

    唯一原则：在HBase中rowkey可以看成是表的主键，必须保证其唯一性。
    散列原则：由于rowkey是按字典有序的，故应避免rowkey连续有序而导致在某一台RegionServer上堆积的现象。例如可以拼接随机数、将时间戳倒序等。
    长度原则：设计时RowKey要尽量短，这样可以提高有效数据的比例，节省存储空间，也可以提高查询的性能。

用过哪些nosql数据库
redis,hbase

任务调度用什么
azkaban
spark性能调优

数据仓库是怎样管理的
hbase导入的什么数据

你们集群有多少台，有几个主节点这个是其中一个面试官问的问题**