
数据仓库
文章平均质量分 78
liuhongxingrs
这个作者很懒,什么都没留下…
展开
-
数据仓库建设
数据仓库的建设需要经历的事情,需要经过一个混乱期,为了简单的需求来无休止的进行原有模型的扩充,直到模型已经不成为模型,是所有的需求堆积的结果。经过一个混乱期之后,会设想进行一次数据的整体规划,需求的整体规划,此时按照模型的方法来进行数据的二次重构,并考虑使用行业通用的解决方案来进行数据仓库的建设,比如说进行新的etl流程的改写,从最原始的存储过程来过渡到业界使用的跨平台的数据抽取,转原创 2009-11-09 21:52:00 · 609 阅读 · 0 评论 -
statViz结合GraphViz进行日志用户路径分析
常规的日志分析工具侧重于统计功能,如流量,IP等主题的统计,statViz主要目的用来进行点击流或者路径分析,非常小巧。其实statViz本身不能进行路径的展示,其主要是生成路径图的数据文件(.dot类型),然后把此文件用通用的图形展示工具GraphViz进行展示出来。 初接触statViz的时候非常激动,激动于它的想法,把路径形象的展示出来,对日志可视化展示有了更直观的了解。statViz用到了php脚本进行路径图文件的生成,以上的内容可以帮助你完整的部署这个日志展示工具。我假设你连php也不知道是什么原创 2010-06-06 17:16:00 · 1731 阅读 · 1 评论 -
Oracle本地分区索引的使用小结
为了提高数据访问的效率,常常建立索引,但是每次重建索引在数据量很大的时候会明显变慢,影响了处理效率,因此对于大量的数据,常常使用分区和分区索引相结合的办法,这样历史分区索引不用重建,只用对新分区进行索引进行处理就行了,中间测试oracle本地分区索引的过程记录如下,供参考 1.建立分区表 create tabletmp_partition_list ( report_datevarcha原创 2012-01-08 14:10:03 · 1325 阅读 · 0 评论 -
hive中reduce输出大文件的处理
问题1:hive表对应的数据含有很多空文件或者很多较大文件 原因:最本质原因是数据倾斜导致分配到reduce的数据量差别所致,这些空文件会占据namenode的内存,也会影响map的数目。 解决方案1: 在hadoop本身OutputFormat的接口中org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat倒可以在hadoop层面解决,原创 2012-01-16 13:55:01 · 5339 阅读 · 0 评论 -
hive的multi-distinct可能带来性能恶化
目前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session原创 2012-01-18 09:27:41 · 4945 阅读 · 0 评论