
HIVE
zx_love
这个作者很懒,什么都没留下…
展开
-
Hadoop数据存储orc与parquet格式的选择
对于orc与parquet这两种列式存储格式,网上能找到大量的介绍以及对比,此处简单总结一下:orc VS parquet: orc存储压缩率比parquet要高; 一般来说,orc读取效率比parquet要高; parquet支持嵌套数据格式,orc原生不支持嵌套数据类型(但可通过复杂数据类型如map<k,v>间接实现,此处情况即对应第二条中的“特例”,...原创 2019-09-01 17:40:20 · 4445 阅读 · 0 评论 -
SQL查询,分组取top n
SQL查询,分组取top n关系型数据库 mysql:1、自身join,having count(1) > n2、嵌套查询,where n < (select count(1) from table where xx=xx)分布式 hive sql:使用开窗函数row_number() over (partition by xx order by xxx)select *from( select *, row_number() over (parti...原创 2020-08-20 10:58:04 · 1457 阅读 · 0 评论 -
通俗易懂的Hive知识分享
hive sql通过hive cli或者hive server2(jdbc链接)hive cli:hive -e “your sql” 执行sql并退出hive -S -e “your sql” 静默模式,返回结果省去执行耗时、结果行数等信息hive -f /xx/your_sql.hql 执行指定文件中的sql(进入hive shell模式时,可以使用source指定sql文件)hive外部表与管理表(内部表)管理表 —— hive控制着数据的生命周期(删除表时,数据会被删除),数据存储在默原创 2020-06-28 20:56:54 · 713 阅读 · 0 评论 -
Hive SQL查询结果写入指定hdfs路径
将hive查询结果写入指定hdfs路径下:set mapred.reduce.tasks = 1;insert overwrite directory '/xx/xx/'ROW FORMAT DELIMITED FIELDS TERMINATED BY '~'select cols...from tableNamewhere conditions...distribute by ran...原创 2018-06-06 18:32:13 · 10776 阅读 · 0 评论 -
Hive表更名问题——RENAME TABLE
RENAME TABLEALTER TABLE table_name RENAME TO new_table_name这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之,老的表名并未“释放”,对老表的更改会改变新表的数据?不,数据所在的位置会移动到hive表默认路径下。如果建表是指定路径LOCATION,那么重名之后,路径会变更。...原创 2018-11-07 15:30:33 · 30275 阅读 · 0 评论