
数据模型
QuinnJob
这个作者很懒,什么都没留下…
展开
-
Hive优化
Map和Reduce 启动和初始化map和reduce都会花费资源 map个数,取决于切片数量 1当输入数据量少于参数(128m),只有一个map,不用调整, 若该表字段少,行数多,可以适当调高map数提高效率。 2若map数较多,查看到很多split大小是小于128,有小文件情况,这个时候除了jvm重启,考虑减少map数量参数设置。通过减少map数,减少资源启动优化。 reduce数 reduce,有多少个reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,原创 2021-03-06 19:38:01 · 476 阅读 · 0 评论 -
数据仓库 : 建模及事实表维度表思路
1 确定事实表的粒度。(重要的设计问题) 粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 要结合业务特点设计适中粒度,充分考虑查询时间,存储空间,需求特点。 数据仓库创建关键第一步:则首先要分析创建什么样的仓库,仓库里放那些内容。也就是分析fact表和维度表。 数据仓库创建关键第二步:数据源,分析完fact和维度表后,还要知道fact表和维度表从哪里获取。 ...原创 2021-02-25 16:06:54 · 539 阅读 · 0 评论