
大数据
大龄大数据爱好者
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
flume的memeryChannel中transactionCapacity和sink的batchsize需要注意事项
最近在做flume的实时日志收集,用flume默认的配置后,发现不是完全实时的,于是看了一下,原来是memeryChannel的transactionCapacity在作怪,因为他默认是100,也就是说收集端的sink会在收集到了100条以后再去提交事务(即发送到下一个目的地),于是我修改了transactionCapacity到10,想看看是不是会更加实时一点,结果发现收集日志的agent启动的原创 2016-04-29 10:11:00 · 6761 阅读 · 0 评论 -
关于kafka的新的group无法订阅到topic中历史消息的问题
今天在写kafka的java api例子时候,遇到一个问题,比如我创建了一个test主题,往里面写了1,2,3,4,5条消息,在这个时候,我用一个新的group启动了一个消费者,发现该消费者只能读到5以后的消息,而1到5的消息是读不到的,于是感到疑惑,就去官网上找了一下,看到这这样一个配置项“auto.offset.reset”,该配置项的描述如下:What to do when there原创 2016-04-18 16:16:38 · 5437 阅读 · 2 评论 -
初次接触spark的一点理解
由于工作的需要,在考虑用spark作为实时日志分析的框架,而之前没有接触过spark,只是在网上看到大家对它评价很高,于是就开始去着手学习它,从官方文档和网上各种资料狠狠恶补了两天,综合这两天的收获,谈一谈对spark的肤浅的理解一、spark的三种运行模式(这里没有去关注mesos)1、standlone模式 这种模式是spark在做计算时候的一种独立模式,这种模式是为了让初学sp原创 2016-04-15 15:26:17 · 2188 阅读 · 0 评论 -
FSDataOutputStream中的hsync()不起作用?
最近在做一个demo,用flume收集实时日志到hdfs,然后用spark来读,写入spark用的的FSDataOuputStream,写入的格式是avro格式的。计划是在append数量到了1000条的时候就flush一次,结果发现调用hflush后,只有第一次的时候文件大小才会变化,根据这个接口说明,一旦hflush后,reader能可以看到最新的数据,于是,写了个reader去读,真的能读到原创 2016-05-09 14:57:29 · 1237 阅读 · 0 评论 -
spark分类训练时因分类标签值太大导致outOfMemery
最近在研究spark的ml库,刚好公司有需求想做一个分类器,于是拿了一批数据进行测试,数据不多,训练集只有50w的数据(当然我的测试环境配置也不高,因为装了CDH,导致每台机器只有3G的空闲内存),在做测试的时候,每次都是在生成分类模型的时候报outOfMemery错误,各种设置内存相关的参数都修改了,可依然没有效果。正在素手无策的时候,找了以前的例子进行比较(以前做个一个用搜狗语料库训练分类原创 2016-07-08 15:37:18 · 525 阅读 · 0 评论