
hive数据仓库
文章平均质量分 77
resin_404
从事互联网金融里的数据业务服务开发
展开
-
大数据开发工程师(偏数仓开发岗中/高级)面试经验分享(2021)
2021年大数据开发工程师面试经验总结分享,以及知识点汇总整理原创 2021-06-17 15:03:18 · 1288 阅读 · 0 评论 -
Hive底层文件存储类型parquet
Hive作为数据仓库常用工具之一,在数据量级越来越大的时候,存储问题会暴露出来。那么在之前大部分为了省事方便都会以TextFile*作为存储类型,此类型比较占存储,并且查询效率并不是很高。为了节省集群的存储空间,研究了各种存储类型,网上各类帖子已经把这几类的优缺点和使用场景说的非常明确。我在这稍微提及一下,主要想分享我在使用sqoop抽取数据时进行文件类型转换(parquet)遇到的坑,共享出来希望遇到此问题的朋友借鉴,减少不必要时间消耗。*一、概述一下各类文件类型的优缺点1.TextFile行存储,原创 2020-06-09 15:02:56 · 5052 阅读 · 0 评论 -
自定义UDAF函数开发详解
hive自定义UDAF函数开发详解UDAF 函数分为如下两部分:一、负责检查数据类型(Resolver)二、负责数据执行处理(Evaluator)原创 2019-12-11 10:32:10 · 1387 阅读 · 0 评论 -
搭建Hive数据仓库爬过的坑-数据仓库设计要点
开篇基于大数据的时代背景,分布式计算框架已经是无可替代的计算工具。那么数据仓库的运行环境就不只是拘泥于关系型数据库了,在数据量比较大的前提下,分布式计算将会比关系型数据库更胜一筹。那么数据仓库环境从关系型数据到分布式计算框架的迁移过程中要考虑哪些问题或者需要解决哪些问题,下面我们具体详细讲解。数据仓库环境: Hadoop + HDFS + Hive数据仓库整体架构图问题清单(本文会依次...原创 2019-07-29 15:13:11 · 1290 阅读 · 0 评论 -
最实用的hive优化参数配置,session级别配置灵活性高
前言在Hive优化方面,要做到性能最优,那就是得定制优化,针对不同的sql脚本设置不同的参数,配置不同的map和reduce数。保证局部性能最优,结果才会是效率最高。那么在定制优化方面使用session级别的配置就是对症下药。所有的设置的参数只在一次Hive的cli命令起作用,关闭窗口或者退出命令行后整个配置参数全部失效,不会对其他脚本的运行环境造成影响。配置清单:1 创建session...原创 2019-07-31 13:07:58 · 1922 阅读 · 0 评论 -
数据仓库工程师面试经验(2019)
数据仓库面试经验分享(2019年)原创 2019-09-12 16:14:25 · 4545 阅读 · 5 评论