
Scribe
tinyid
Java/Python
Hadoop/Spark/Presto/Kafka/Druid
numpy/matplotlib/pandas/scipy
展开
-
Facebook scribe部署实践
基于scribe来收集众多服务器的日志已经在许多公司应用,但是部署scribe确是一个令人纠结的过程,本人也做过一些相关工作,现在将scribe部署方式同大家分享一下: 环境:centos 5.4 或者 suse 准备阶段: 1. apache ant,这个主要是用到java的库的时候需要安装,因为编译java的访问接口的时候需要用到ant,如果用不到java,那么可以不装,在编译t原创 2012-01-05 12:55:35 · 1894 阅读 · 1 评论 -
跨国际链路的数据服务系统架构设计的一种实现思路
现在数据在互联网产品中发挥的作用越来越大,很多公司都开始收集数据、整理数据,之后再数据建模、分析数据;最终我们得到的是知识,是某种规律的发现。发现知识和规律之后,我们需要将这些知识和规律运用到产品的改进或者运营中去。有些知识可以渗透在整个产品的设计中,比如说,我们通过数据分析发现,对于某种类型的网站的用户,他们大多数喜欢暖色调,那么我们就可以在设计界面的时候,多去使用一些暖色调;但是有些知识却不能原创 2012-07-30 16:15:12 · 2077 阅读 · 0 评论 -
初探Flume—又一个分布式日志收集系统
以前一直在使用Facebook开源的Scribe作为项目中的日志收集系统,Scribe能够满足我们需求,不过前段时间看到了几种分布式日志收集系统的比对之后,发现Cloudera的Flume从实现上来说更加完善,最近有时间探索了一下。 1 安装,作为Cloudera发行版的一大优势,安装从来不是什么麻烦的问题,只要我们将CDH的源(目前支持Ubuntu,CentOS,OpenSUSE等)加原创 2012-12-26 17:02:13 · 6801 阅读 · 4 评论 -
结合Scribe/RabbitMQ/pika实现为Hive动态添加partition元数据
现有架构中通过Scribe直接向HDFS中写入数据,大部分的对数据的操作都是通过Hive来进行的,所以需要在数据进入HDFS之后就能通过Hive来访问到具体的数据,这就需要以数据驱动来添加元数据。以前使用的方式是通过按照固定的时间间隔来执行一个并行批量添加元数据的Java程序,不过那样做可能会漏掉一些没有过来的partition的添加,为此我们还必须在第二天再一次执行,确保所有的数据都被映射到了H原创 2013-04-25 11:15:41 · 1964 阅读 · 2 评论