
大数据
GO_BY_GO_BY_GO
种一棵树最好的时间是十年前,其次是现在
展开
-
hive中replace的使用-貌似基本上不怎么用
目前的分区表是这样的: CREATE TABLE `szddemo.partition_fix_dict_ios_month_uv_backup`( | | `datasource` string, | | `version` string, | | `uv` string) | | PARTITIONED原创 2021-03-10 10:32:54 · 539 阅读 · 1 评论 -
IOException: incorrect header check-hive查询语句报错
stored as rcFile的hive表估计会有这个问题 也许是 zip 有bug。 尝试换 DeflateCodec。 设置看下: set hive.exec.compress.output=true; set mapred.output.compress=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.DeflateCodec; set io.compression.codecs=org.apache.h原创 2020-11-05 17:33:34 · 992 阅读 · 0 评论 -
【大数据之路】第9章阿里巴巴数据整合及管理体系
9.2规范定义 名词术语 数据域:面向业务分析。既能涵盖目前所有的业务需求,又能在新业务进入时不影响的进入到已有的数据域或扩展新的数据域。 业务过程:注意不可拆分的行为事件,例如下单、支付、浏览等。就是企业活动中的事件。 修饰类型:修饰词的概括。例如订单中的支付方式、日志域中的访问终端类型等。 派生指标:等于原子质保+一个或者多个修饰词+时间周期。 待完善 ...原创 2020-09-20 22:43:19 · 548 阅读 · 0 评论