
大数据
文章平均质量分 56
amghost
这个作者很懒,什么都没留下…
展开
-
Linkedin Camus的使用
Preface在实现Lambda架构的时候,我以Kafka作为系统的输入,同时需要将数据批量从Kafka导入到HDFS存储起来,以备Batch layer批处理计算。而从Kafka到HDFS的数据传输,Linkedin已经有一个开源的项目,即Linkedin Camus。Camus是Kafka到HDFS的管道,它实际上是向Hadoop提交一个作业,并从Kafka获取指定topic的消息,存原创 2015-03-14 13:43:16 · 5818 阅读 · 0 评论 -
Linkedin Camus,从Kafka到HDFS的数据传输管道
Preface本文是对Linkedin-Camus的介绍。内容都是从Camus的github中摘取出来的,详细的内容要看其说明和源码Introduction of CamusCamus是Linkedin开源的一个从Kafka到HDFS的数据管道,实际上它是一个MapReduce作业What is AvroApache Avro是一个 Data Seria原创 2015-03-14 13:41:35 · 12864 阅读 · 3 评论 -
spark-OutOfMemory:GC overhead limit exceeded 解决
今天准备跑自己的spark程序,但是运行过程中遇到了OutOfMemory:GC overhead limit exceeded的错误。最后通过设置spark executor cores解决原创 2015-04-27 03:37:50 · 13840 阅读 · 1 评论 -
关于VirtualBox下虚拟机的几种网络模式
今天在折腾Hadoop完全分布式,重点是在一个宿主机上搭建多个虚拟机,需要多个虚拟机之间可以互ping,而且最好可以访问外网。转载 2015-06-01 21:42:50 · 1221 阅读 · 0 评论