
产品
tinyid
Java/Python
Hadoop/Spark/Presto/Kafka/Druid
numpy/matplotlib/pandas/scipy
展开
-
数据仓库环境下,业务元数据管理的一些总结
在数据仓库的环境下,随着历史数据的积累,我们对于较早历史数据的认识会逐渐变淡,以至于在某些情况下我们不能解释统计结果中一些出乎意料的问题,这种问题可能是由于在不同的时间统计口径的出入,或者是ETL过程中处理方式的变更等等。所以在数据仓库环境中维护一个完善的元数据管理模块非常有必要。一下是我总结的一些我认为比较重要的业务元数据(不涉及技术元数据):1. 运营活动业务数据的收集,依赖于业务内部原创 2013-02-20 19:03:46 · 1574 阅读 · 0 评论 -
使用heartbeat消除服务器单点
问题背景:在系统中有一个数据收集服务(Facebook Scribe)的汇总节点,这个节点必须保证较高的可靠性。为了防止S原创 2013-08-23 18:14:13 · 1726 阅读 · 0 评论