平平的草地上-优快云博客

原创 Hive不同存储格式的压缩和查询效率比对

　新数仓　　老数仓　原文件大小 100G 100G 100G 100G 100G 存储格式 ORC Sequencefile Parquet RCfile Avro 存储大小 1.8G 67.0G 11G 63.8G 66.7G 存储耗费时间 5...

2020-04-19 14:02:10 841

常用开发技巧的整理： 1、Hive脚本常用参数的设置 ##压缩设置 set mapred.compress.map.output = true; set mapred.output.compress = true; set hive.exec.compress.output = true; ##输出设置 set hive.merge.mapfiles = true; set hive.merge...

2020-04-19 13:38:31 1175

原创 hive小文件处理方法

方法一 hive方法处理 set hive.merge.mapfiles=true; -- map only job 结束是合并小文件 set hive.merge.mapredfiles=true; -- 合并reduce输出的小文件 set hive.merge.smallfiles.avgsize=256000000; -- 当输出文件平均大小小于该值，启动新job合并文件 set hiv...

2019-12-27 10:13:54 573

原创 hive：textfile,sequencefile和rcfile的使用与区别详解

hive在创建表时默认存储格式是textfile,或者显示自定义的stored as textfile.很多人知道hive常用的存储格式有三种，textfile,sequencefile,rcfile.但是却说不清楚这三种格式的干什么用的，本质有有什么区别？适合什么时候用？为什么hive会有多种存储格式？因为hive是文本批处理系统，所以就存在一个往hive...

2019-12-27 10:06:42 230

原创 Hive如何处理小文件问题？

一、小文件是如何产生的 1.动态分区插入数据，产生大量的小文件，从而导致map数量剧增。 2.reduce数量越多，小文件也越多(reduce的个数和输出文件是对应的)。 3.数据源本身就包含大量的小文件。二、小文件问题的影响 1.从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能。 2.在HD...

2019-12-27 10:04:17 194

原创面试题目

自我介绍 java多线程实现的方法 java多线程实现锁的方式？ Synchronized和Lock和区别？垃圾回收的方法？ scala隐式转换，举一个例子 scala中list的slide函数？？？ hadoop中，解释一下shuffle hive中如何解决数据倾斜？如何实现kafka的精准一次消费？讲了若泽的项目，问为什么不用kafka，如果flume第二层挂了，flume sink到H...

2019-12-26 14:39:09 400

原创 maven_jar

父工程 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="htt...

2019-12-19 17:48:21 135

原创数仓总结

0.自我介绍 1.什么是数据仓库？如何构建数据仓库？（如果这个问题回答的好，后面很多问题都不需要再问）业务调研需求调研数据调研业务域主题域/数据域 CDM 总线矩阵分层架构定制规范命名规范、开发规范、流程规范维度建模星座模型宽表粒度指标体系任务调度数据质量元数据管理血缘关系数据治理 BI可视化 OLAP多维分析用户画像推荐系统 2.如何建设数据中台？可简单说...

2019-12-17 10:31:25 495

原创 hive参数

SET hive.auto.convert.join = TRUE; SET hive.exec.parallel = TRUE; SET hive.exec.parallel.thread.number = 10; set hive.groupby.skewindata=false; set mapred.job.reuse.jvm.num.tasks=-1; set hive.map.aggr...

2019-12-13 17:41:46 205

原创 kylin查询10000000限制，可以缩小范围查询

查询失败: org.apache.kylin.rest.exception.InternalErrorException: Query returned 10182925 rows exceeds threshold 10000000 while executing SQL: "SELECT mea_jits_ctr_retention_source_d.dayno AS col_109911_d...

2019-12-10 10:57:44 374

大数据技术之高频面试题7.zip

面试，，，Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行

2020-08-16

sqoop_export.zip

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2020-08-16