
hive学习
大数据球球
每天进步一点点总会有所成功
展开
-
数仓分层简析
数据仓库分层的好处①,清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解②,减少重复开发:规范数据分层,开发一些通用的中间层数据,能减少极大的重复计算③,统一数据口径:通过数据分层提供统一的数据出口,同意对外输出的数据口径④,复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题为什么要建立数据仓库当你需要集中化管理你的数据时当你希望以更高效的方式使用数据时当你的数据量和复杂度到了需要一个团队来维护时当你希望想要数据驱动业务时当你想原创 2021-10-25 15:49:19 · 312 阅读 · 0 评论 -
学习怎么Hive表导出成csv文件
命令hive -e "set hive.cli.print.header=true; -- 将表头输出 select * from data_table where some_query_conditions" | sed 's/[\t]/,/g' > ttt.csvset hive.cli.print.header=true将表头输出;sed ‘s/[\t]/,/g’ ...原创 2020-04-14 10:37:28 · 646 阅读 · 0 评论 -
hive小文件处理方法
hive方法处理set hive.merge.mapfiles=true; -- map only job 结束是合并小文件set hive.merge.mapredfiles=true; -- 合并reduce输出的小文件set hive.merge.smallfiles.avgsize=256000000; -- 当输出文件平均大小小于该值,启动新job合并文件set hive.mer...原创 2019-12-20 10:41:51 · 700 阅读 · 0 评论