
分布式
tinyid
Java/Python
Hadoop/Spark/Presto/Kafka/Druid
numpy/matplotlib/pandas/scipy
展开
-
RabbitMQ一些基本的管理操作备忘
一些基本的管理命令:一步启动Erlang node和Rabbit应用:./rabbitmq-server在后台启动Rabbit node:./rabbitmq-server -detached关闭整个节点(包括应用):./rabbitmqctl stop 怎样仅仅关闭应用而不关闭整个节点呢?因为rabbitmq-server一起启动了节点原创 2012-10-09 11:59:09 · 11820 阅读 · 0 评论 -
另一种扩展并加速Hadoop计算能力的计算架构—Presto
Hadoop自身的MapReduce计算框架是非常chua原创 2014-09-25 11:13:41 · 6669 阅读 · 0 评论 -
Elasticsearch索引别名的介绍和操作
ES版本 :1.4.1 elasticsearch中的API可以接受一个对应于某个索引的索引名,也可以接受多个索引。索引别名API允许使用一个名字来作为一个索引的别名,所有的API会将别名转化成最终的索引名。一个也可以被映射到多于一个的索引上,当指定这个别名的时候,别名将会自动地扩展到别名的所有的索引上。一个别名也可以与一个过滤器建立关联,这个过滤器在搜索和路由值的时候自动被应用。翻译 2014-12-16 14:34:19 · 40227 阅读 · 0 评论 -
Elasticsearch的路由(Routing)特性
Elasticsearch的路由机制与其分片机制有着直接的关系。Elasticsearch的路由机制即是通过哈希算法,将具有相同哈希值的文档原创 2014-10-14 16:54:50 · 33821 阅读 · 4 评论 -
Elasticsearch集群的脑裂问题
所谓脑裂问题(类似于精神分裂),就是同一个集群中的不同节点,对于集群的状态有了bu原创 2014-09-05 18:42:44 · 42211 阅读 · 3 评论 -
SaltStack Pillar攻略
这个攻略假设读者已经读过了基本的SaltStack攻略Salt中的pillar接口是Salt开发中最重要的接口之一。Pillar是用来产生特定于minions的任意数据的接口。pillar中产生的数据几乎可以在Salt的任何组件中使用,用途广泛:高度敏感的数据:通过pillar传输的数据会保证只向选定的minions展现,这使得pillar可以作为Salt中管理安全信息的引擎,翻译 2013-10-15 14:12:58 · 13561 阅读 · 0 评论 -
使用heartbeat消除服务器单点
问题背景:在系统中有一个数据收集服务(Facebook Scribe)的汇总节点,这个节点必须保证较高的可靠性。为了防止S原创 2013-08-23 18:14:13 · 1726 阅读 · 0 评论 -
通过Thrift source向Flume发送数据的Python实现
目前Flume支持Thrift source,即通过一个Thrift服务来收集数据(这一点和scribe是一样的),然后通过相应的channel发送到sink中去。以下是具体的实现过程:环境:Python 2.7.5/CDH4.3 Flume 1.3/Thrift 0.9/首先,我们需要一个Thrift协议的Python Flume客户端的模块,这个模块可以根据Thrift的定义自原创 2013-07-18 19:49:31 · 12376 阅读 · 2 评论 -
使用Python通过Thrift接口访问HBase和Hive
HBase和Hive都提供了thrift服务,作为给其它非JVM语言访问的接口,其使用本身非常简单。以下是封装好的两个访问接口,数据最终被组织成一个列表,列表里的每个元素都是一个字典,这样元数据和数据放在一起,虽然占用的内存多了一些,但是使用起来方便了许多,并且从效果上也拉近了和关系数据库的距离,这点类似于MongoDB。如果要使用以下这两个工具类,必须首先将HBase和Hive对应的Thri原创 2013-03-21 16:10:04 · 3645 阅读 · 1 评论 -
使用Hive UDF和GeoIP库为Hive加入IP识别功能
Hive是基于Hadoop的数据管理系统,作为分析人员的即时分析工具和ETL等工作的执行引擎,对于如今的大数据管理与分析、处理有着非常大的意义。GeoIP是一套IP映射数据库,它定时更新,并且提供了各种语言的API,非常适合在做地域相关数据分析时的一个数据源。UDF是Hive提供的用户自定义函数的接口,通过实现它可以扩展Hive目前已有的内置函数。而为Hive加入一个IP映射函数,我们原创 2013-01-30 23:53:50 · 5121 阅读 · 4 评论 -
一个数据应用闭环
收集:各种开源的分布式日志收集系统:Scribe, Flume等等存储可以同时包含各种不同的存储类型,可根据不同的需求增减相应的存储类型:底层存储:能够存储大量的数据,最好具有可扩展性 HDFS S3等等关系存储:MySQL,Postgresql等等键值存储:HBase,Redis等等计算计算能力也应该同时包含集中不同的类型,可根据不同的需求增减相应原创 2012-11-14 18:17:24 · 2082 阅读 · 0 评论 -
Apache Storm流处理有序性探究
本文假设读者已经对Storm的基础结构有了全面理解,并知道Nimbus与supervisor在集群之中所扮演的角色。之所以要理解Storm集群的并行机制,是为了能够对数据流中数据地处理顺序有一个深入地理解,这样才能更有信心地使用工具。首先是需要了解一些与Storm集群并行机制相关地概念:工作进程(worker process,就是一个JVM进程,通过在supervisor服务器上执原创 2015-09-14 16:44:40 · 6133 阅读 · 1 评论