
hive
文章平均质量分 92
青山孤客
网易高级服务端开发工程师,浙江省评标专家,信息系统项目管理师,杭州市E类人才。杭州电子科技大学工学硕士,曾访学圣彼得堡国立信息技术机械与光学大学(ITMO),在国际计算机软件和应用会议(COMPSAC)发表1篇学术论文,目前已申请国家发明专利4项,2项软件著作权。兴趣是数据开发、后端开发、信息系统项目管理等。
展开
-
Hive实践——将查询的数据按照分区进行存储
Hive 分区其实就是将表中的数据按照一定规则散列成多个分区。常见的例如按照月分区、不同日期的分区。因此在具体查询数据时只需查对应分区的数据就可以,而不需要全表搜索,大大降低了查询时的时间开销...原创 2022-08-01 14:25:22 · 1517 阅读 · 0 评论 -
在HUE中绘制WorkFlow并配置schedule定期执行工作流
在前几篇博客我已将绘制WorkFlow的工作事件都已经设计好了。这里总结一下如何将这些事件一起组成一个WorkFlow工作流,并且会讲一些绘制工作流的注意事项。首先要注意我们添加的任何一个中间的事件这里有两种情况,分别是 DOCUMENTS 与 ACTIONS :DOCUMENTS :ACTIONS :也很好理解,DOCUMENTS中添加的事件都是之前我们在Oozie中已经...原创 2020-04-21 13:55:03 · 2566 阅读 · 5 评论 -
对HUE中的各种hive表的增量数据进行汇总,再将此hive表使用sqoop增量导出数据到mysql中
这篇博客主要汇总了我在具体项目中一些处理步骤。这里原创 2020-04-21 00:06:07 · 956 阅读 · 0 评论 -
按照日期与时间创建双分区hive表,再通过日期与时间分区将hdfs中的文件load进hive中
这里总结一下项目中遇到的一些问题与使用记录一下,做个总结,方便以后查阅。1、首先查看对应表在数据库中的表结构这里我就举其中一个表为例(GXTS_MJSKXX-门禁刷卡信息表):2、在hive中创建对应的表结构,为load数据做铺垫(创建时按照日期与时间创建双分区)CREATE TABLE SJBZK.GXTS_MJSKXX_copy ( ID string, YHM st...原创 2020-04-20 13:47:29 · 2626 阅读 · 0 评论