
消息队列
文章平均质量分 94
tinyid
Java/Python
Hadoop/Spark/Presto/Kafka/Druid
numpy/matplotlib/pandas/scipy
展开
-
理解Celery的worker
Celery是一个异步任务队列系统,利用它,可以将繁重的工作分配到多台服务器上执行,使水平扩展处理能力成为可能。worker是Celery的核心的执行模型,对其进行比较全面的理解,对于更加有信心地使用Celery会有很大的好处。worker的类型顾名思义,worker就是做具体工作的实体。为了便于理解,可以将worker同一台服务器对应(也就是在一台服务器上运行一个worker。当然,这里...原创 2020-04-29 20:21:20 · 7380 阅读 · 3 评论 -
RabbitMQ一些基本的管理操作备忘
一些基本的管理命令:一步启动Erlang node和Rabbit应用:./rabbitmq-server在后台启动Rabbit node:./rabbitmq-server -detached关闭整个节点(包括应用):./rabbitmqctl stop 怎样仅仅关闭应用而不关闭整个节点呢?因为rabbitmq-server一起启动了节点原创 2012-10-09 11:59:09 · 11820 阅读 · 0 评论 -
结合Scribe/RabbitMQ/pika实现为Hive动态添加partition元数据
现有架构中通过Scribe直接向HDFS中写入数据,大部分的对数据的操作都是通过Hive来进行的,所以需要在数据进入HDFS之后就能通过Hive来访问到具体的数据,这就需要以数据驱动来添加元数据。以前使用的方式是通过按照固定的时间间隔来执行一个并行批量添加元数据的Java程序,不过那样做可能会漏掉一些没有过来的partition的添加,为此我们还必须在第二天再一次执行,确保所有的数据都被映射到了H原创 2013-04-25 11:15:41 · 1964 阅读 · 2 评论 -
使用Logstash + Elasticsearch作为大数据索引、分析工具
logstash是一个不错的日志监控与分析工具,通过原创 2014-05-08 16:17:13 · 36810 阅读 · 19 评论 -
Apache Storm流处理有序性探究
本文假设读者已经对Storm的基础结构有了全面理解,并知道Nimbus与supervisor在集群之中所扮演的角色。之所以要理解Storm集群的并行机制,是为了能够对数据流中数据地处理顺序有一个深入地理解,这样才能更有信心地使用工具。首先是需要了解一些与Storm集群并行机制相关地概念:工作进程(worker process,就是一个JVM进程,通过在supervisor服务器上执原创 2015-09-14 16:44:40 · 6133 阅读 · 1 评论