- 博客(8)
- 收藏
- 关注
原创 ES-Hadoop学习之ES和HDFS数据交换
ES作为强大的搜索引擎,HDFS是分布式文件系统。ES可以将自身的Document导入到HDFS中用作备份,ES也可以将存储在HDFS上的结构化文件导入为ES的中的Document。而ES-Hadoop正是这两者之间的一个connector1,将数据从ES导出到HDFS1.1,数据准备,在ES中创建Index和Type,并创建document。在我的例子中,Index是my
2017-09-01 15:44:57
23364
原创 一个使用中文分词的完整Demo
本文将首先将介绍如何在ES中使用中文分词器IK,然后对比一下IK分词器和默认的standard分词器的差别,最后给出一个Java访问ES的demo1,安装中文分词器。下载与ES版本相对应的IK版本。IK下载以及IK和ES版本对应关系见:https://github.com/medcl/elasticsearch-analysis-ik解压下载的zip文件,进入解压文件的根目
2017-04-17 15:13:52
4285
原创 解决MapReduce任务在windows本地执行的NullPointerException问题
为了能在调试MapReduce任务阶段有更好的工作效率,我们可以把URI的Schema设置为file:///,这样MapReduce任务就可以范围windows本地文件夹。当我在尝试这么做的时候出现了如下的空指针异常Exception in thread "main" java.lang.NullPointerExceptionat java.lang.ProcessBuilder
2017-03-01 11:06:25
4043
原创 用Spark Streaming+Kafka实现订单数和GMV的实时更新
前言在双十一这样的节日,很多电商都会在大屏幕上显示实时的订单总量和GMV总额。由于订单数量巨大,不可能每隔一秒就到数据库里进行一次SQL的数据统计,这时候就需要用到流式计算。本文将介绍一个简单的Demo,讲解如何通过Spark Stream消费来自Kafka中订单信息,然后计算订单的数量和金额。总体流程一个完整的流程大概如下图所示。用户下单之
2017-02-04 15:04:11
6323
原创 基于LDAP和Sentry的大数据认证和鉴权解决方案--Part Two:Sentry集成
上一篇文章中,介绍了LDAP和HUE,Impala以及Hive的集成来完成了用户认证的工作,接下来我们聊一下如何使用Sentry来实现对数据的授权管理。Sentry一旦和Hive集成,就会接管Hive的Metadata,也就是说。如果没有集成Sentry,Hive的metadata是存放在Hive自己的metadata数据库中的,但一旦和Sentry整合,这些metadata信息就会保
2016-12-28 18:51:08
8295
3
原创 基于LDAP和Sentry的大数据认证和鉴权解决方案--Part One:LDAP集成
1,背景项目中需要对大数据平台进行数据权限管理,涉及到数据访问的认证和鉴权。大数据平台中有三个数据访问的入口:HUE,impala-shell和beeline(for hive)。每种入口都必须提供用户名和密码,并且,根据用户所在的角色,能访问的数据库和表是各不相同的。在项目中采用了LDAP来作为用户的认证机制,使用Sentry来对用户进行数据权限的管理。整个大
2016-12-28 14:41:01
7755
原创 在clouder manager中使用Flume处理数据链
目标:在Cloudera Manager中创建两个Flume的Agent,Agent1从local file中获取内容,写入到kafka的队列中。Agent2以Agent1的sink作为source,将数据从kafka中读取出来,写入到HDFS中。注意我的Cloudera Manager使用的是CDH5.8的Parcel,在这个版本中,Kafka使用的是0.9.
2016-12-06 15:02:59
5386
1
原创 KUDU安装
Kudu是一个比较新的大数据组建,在国内大规模应用的公司并不多,kudu的安装文档也只找到官网上的一份,自己在按照官网的步骤进行安装的过程中也遇到了一些问题,现记录一下完整的安装过程:Step1,配置Yum的Repository。使用Yum来安装kudu,但由于kudu还不是Yum的常规组建,直接安装会找不到kudu,所以第一步需要将kudu的repo文件下载并放置到合适的
2016-09-14 14:31:43
12105
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人