
hive
数据的星辰大海
简单地做自己,踏实的做事情
展开
-
hive left join on关联后用in条件过滤问题
当left 或 inner join 关联条件 需要查另外一个表中字段,则可以使用下面的方法。下面是正确的实现思路,提前在主表中,做好打标字段处理。下面语法是错误写法,运行不会通过。原创 2024-08-06 11:31:25 · 364 阅读 · 0 评论 -
hive拼接字符串concat函数的用法
在 Hive 中,字符串拼接是一种常见的操作,用于将多个字符串连接在一起形成一个新的字符串。这在数据处理和分析过程中经常会用到,比如将不同列的值拼接成一个完整的信息、拼接成文件路径等等。原创 2024-08-06 11:19:22 · 557 阅读 · 0 评论 -
Hive表导出成csv文件
hive导出CSV文件hive -e "set hive.cli.print.header=true; #将表头输出 select * from data_table where some_query_conditions" | sed 's/[\t]/|!?|/g' > hivefile.csvset hive.cli.print.header=true将表头输出;sed ‘s/[\t]/,/g’ 将\t替换成|!?|将shell里打印的内容输出到文件...原创 2020-08-12 15:19:14 · 1012 阅读 · 0 评论 -
hive创表后,查看表注释是乱码的
问题:hive创表后,查看表注释是乱码的DROP TABLE IF EXISTS test;CREATE TABLE IF NOT EXISTS testdb.test(COMPANYNAME VARCHAR(400) COMMENT '请求的公司名称',CYM VARCHAR(400) COMMENT '请求公司的曾用名',SHIXINID VARCHA...原创 2020-02-17 20:55:02 · 506 阅读 · 0 评论 -
Hive总结篇及Hive的优化
概述Hive学习也有一段时间了,今天来对Hive进行一个总结,谈谈自己的理解,作者还是个小白,有不对的地方请大家指出相互学习,共同进步。今天来谈一谈什么是Hive,产生背景,优势等一系列问题。什么是Hive老规矩:官网地址Hive wiki.先来谈谈自己的理解:有些人可能会说Hive不就是写SQL的吗,那我们其实可以从另一个角度来理解:Hive就是那么强大啊,只要写SQL就能解决问题,...转载 2019-11-27 17:12:29 · 155 阅读 · 0 评论 -
hive优化
hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select … from...原创 2019-11-27 15:58:26 · 164 阅读 · 0 评论 -
hive数据仓库和mysql的区别
hive和mysql的区别什么是hiveHive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统,Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户端工具,将我们的sql操作转换为相应的MapReduce jobs,然后在Hadoop上面运行。hive和mysql不同点1、hive是数据...原创 2019-05-24 15:10:49 · 2825 阅读 · 0 评论 -
数据仓库的分层
数据仓库的四个层次复制层(SSA,system-of-records-staging-area):SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。原子层(SOR,system-of-record):SOR ...原创 2019-06-05 11:39:49 · 1432 阅读 · 0 评论