
hive
景丰
这个作者很懒,什么都没留下…
展开
-
Hive面试主题
1.hive的组成 –1: metaStore(元数据):默认存在derby数据库,但多客户端进行访问时会冲突,故将数据转到Mysql中 –2:客户端 –3:四个器:编译器,解析器,优化器,执行器 –4:默认运转引擎:MR(生产环境下mr转spark、tez)//每天跑的任务用spark,临时执行的任务走tez:适合改个参数测试临时指标 –5: 数据默认存储在HDFS 2.与mysql的区别 除了sql、hql查询命令以外几乎都不一样 hive走的数据量大,查询 mysql走的数据量小,增删改查 3.内部原创 2021-08-09 22:32:51 · 205 阅读 · 0 评论 -
数据倾斜及治理方法
常见会产生数据倾斜的框架: hadoop,hive,hbase,flink,spark,sqoop,以及各种Shuffle阶段 一、对于数据倾斜的定义 1.是什么: 在shuffle过程中大量同一key的数据被分配至同一分区,导致其中一节点压力过大,而其他节点过于清闲的情况。 2.现象: ①绝大多数map Task运行快速,而个别Task,尤其多见于reduce task运行过慢。 ②OOM(Hadoop——container,Spark——driver) 3.原理: 进行Shuffle的过程中将相同的ke原创 2021-07-30 16:33:08 · 222 阅读 · 0 评论