
大数据
zh_yi
这个作者很懒,什么都没留下…
展开
-
如何编写Flume-ng-morphline-avro-sink
以下内容 工作需要,在预研与大数据,主要是hadoop相关组件和子项目的一些技术。 预研的产品平台主要包含hadoop、flume、solr、spark。目前重点关注flume和solr部分。 即:从flume采集回日志进行分词传给solr创建索引,或第三方平台发送的已经结构化的数据直接创建索引。 平台框架类似下图(自己用visio画的简单示意图,仅供参考。原创 2014-09-25 15:28:31 · 2420 阅读 · 1 评论 -
CDH5.1从采集(Flume)到索引(Solr)
众所周知,CDH是Cloudera公司推出的基于稳定版的ApachHadoop环境。并且比官方的Hadoop更新更快。坚持季度update,年度release。其中集成的Hadoop生态系统中的所有组件互相兼容,并坚持更新其中的bug和feature,在学习测试、生产环境中都有很好的应用。如果在生产环境中需要用到Hadoop,自行部署Hadoop,在其上再部署类似HBase、Flume、Imp原创 2015-04-08 22:33:20 · 6555 阅读 · 0 评论 -
Solrj Java API调用详解系列(四)
高级查询部分的内容其实还有很多,详细请参考http://wiki.apache.org/solr/。之前文章一直介绍了关于solrj的查询API,对于索引的创建和删除未有设计,本文将介绍索引的创建和删除,并介绍部分与查询相关不太常用的API。一、 过滤查询字段有时查询会的docs中可能不需要包含所有的field,只需要关注其中的几个。那么通过fl(field lis原创 2015-04-08 22:39:12 · 2103 阅读 · 0 评论 -
Solrj Java API调用详解系列(三)
上次介绍了SolrJ的一些查询,其实主要使用了add和addFilterQuery两个接口。以及一些不同查询需求的参数应该如何输入。本篇将介绍一些Solr提供的一些高级查询,比如group、facet等。一、 Solr的不等于不等于很简单,就是在查询条件前加一个“-”即可。例如:SolrQuery query = new SolrQuery();Query.原创 2015-04-08 22:40:54 · 3036 阅读 · 0 评论 -
重写Flume-NG-morphline-avro-sink
之前在优快云中发过一篇关于如何编写flume的morphline-avro-sink的文章(http://blog.youkuaiyun.com/zh_yi/article/details/39552441)。发现浏览次数不少,但没有评论。可能说明看后对大家没有什么帮助吧,最近发现之前写的程序在大数据量环境下存在性能瓶颈,通过该sink的event只能达到200条/秒的发送量,而morphline-solr原创 2015-04-08 22:37:18 · 1218 阅读 · 0 评论 -
Solrj Java API调用详解系列(二)
上篇文章提到了环境搭建、与Solr建立连接以及简单的查询如何实现。本文将继续介绍一些复杂的查询API如何使用。一、 或者关系的查询1、 SolrQuery.add(String, String… val)接口:QueryResponse rsp = null;LBHttpSolrServer hSolrServer = new LBHttpSolrServer(原创 2015-04-08 22:39:15 · 1124 阅读 · 0 评论 -
Solrj Java API调用详解系列(一)
本系列文章以solr-solrj-4.7.2、JDK1.6、Eclipse4.3(Kepler)为基础创建的Maven工程。一、 环境搭建1、 创建Maven工程。2、 Pom.xml引入如下依赖:刚刚,就在刚刚。Maven Repository改版了,需要连接googleapis.com去down一个js文件。可能有的小伙伴不能从中央库down下这个jar了。Ma原创 2015-04-08 22:38:27 · 2505 阅读 · 0 评论 -
编译Flume-NG源码之1.5.2版本
目前最新的Flume-NG版本是1.5.2,下面介绍一下编译本源码的一些经验。主要是一些问题是如何解决的。环境说明:操作系统:Windows7Maven版本:3.0.4Eclipse版本:4.3(Kepler)一、源码下载:http://www.apache.org/dyn/closer.cgi/flume/1.5.2/apache-flume-1.5.2-src.tar.gz原创 2015-04-08 22:35:58 · 2821 阅读 · 0 评论