
Hive
文章平均质量分 61
ztcheck
每个人都是生活的导演
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive 中的不规则日期格式大小比较出错
记录一个 Hive 查询中,关于 不规则时间/日期格式比较 的问题。在数仓实施时,数据源中关于 时间/日期类型 的字段格式有很多,例如 2022-05-10、2022-05-10 15:30:15、2022/05/10、2022/05/10 15:30:15,还有很多不规范的数据,例如 2022-5-10、2022-5-8 15:30:15等等 。我们在进行日期大小比较时,如果直接使用这些原始数据,就很容易出现问题。看下面的例子:# 直接用 时间字符串 比对查询,返回结果为 falsesele.原创 2022-05-10 11:19:10 · 2250 阅读 · 0 评论 -
Hive 多字符分隔列或行
Hive 的默认分隔符为:字段:\001行:\n当数据中包含了例如 \001、\n 时,就需要自定义分隔符了。并且,自定义的分隔符要为多字符,单字符重复的概率太高了。Hive 的 MultiDelimitSerDe 只支持字段的多字符分隔,行的换行符不支持自定义修改。这里重写 TextInputFormat ,用来支持行的多字符分隔。依赖 <dependencies> <dependency> <groupId>原创 2021-08-09 15:37:11 · 908 阅读 · 0 评论 -
Hive on Spark && Spark-sql 中插入数据时的文件数量
Hive on Spark 表明 schema 使用的是 hive catalog,engine 使用的是spark;Spark-sql 则是schema 和 engine 都是用的是Spark。那么,使用上述两种方式向表里多次插入数据据时,底层的文件数量是怎么样的呢?是否严格按照 hdfs block 的大小来划分的?结论使用 Hive on Spark 每次插入都会生成一个copy文件,和block大小无关,和原始表的文件数量无关;使用 Saprk-sql 时,则按照原始表的文件数量进行 co原创 2021-08-02 11:13:10 · 651 阅读 · 0 评论 -
Sqoop 导入 Hive 添加不属于来源表的字段
最近在接手 Sqoop的数据导入到处工作较多,其中碰到了一个之前没有遇到过的问题,即Sqoop在导入postgresql数据到Hive时,需要添加一个字段 租户id 到Hive表中,但是这个租户id在来源表中是不存在的。在Sqoop脚本中,需要手动处理下,这里记录下处理方式,供今后查看。我们一般情况下,通过Sqoop导入数据到Hive时,采用--table的方式导入全表、全字段的情况居多。当需要在来源表已有字段的基础上添加字段时,就需要使用到 --query了。这里有几个细节需要注意下:1.--ta原创 2021-07-12 14:50:07 · 350 阅读 · 0 评论 -
数据湖和数据仓库的对比
定义看下维基百科的定义:A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of data including raw copies of source system data, sensor data, social data etc.and transfor原创 2021-03-18 16:45:57 · 682 阅读 · 0 评论 -
如何实现自定义的 Hive Serde
前言1. 什么是 Hive Serde官网上给出了定义,由于英语不好,我这里直接复制过来。SerDe is short for Serializer/Deserializer. Hive uses the SerDe interface for IO. The interface handles both serialization and deserialization and also interpreting the results of serialization as individua原创 2021-03-04 11:26:46 · 1125 阅读 · 1 评论 -
解码OneData,阿里的数仓之路
干货:解码OneData,阿里的数仓之路。转载自:https://developer.aliyun.com/article/67011简介: 据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿G转载 2021-02-03 15:10:28 · 348 阅读 · 0 评论 -
hive 加载csv格式去除首行
使用hive时,有时候会碰到数据源是csv格式的文本。如果直接加载进hive,也会把csv的表头【schema】添加到hive中,形成脏数据。解决办法如下:参数项tblproperties("skip.header.line.count"="n", -- 跳过文件前n行"skip.footer.line.count"="n" -- 跳过文件后n行)直接在建表时指定上述参数项,例...原创 2020-02-11 15:57:15 · 3312 阅读 · 0 评论