wangjinming1976-优快云博客

原创 ES-Hadoop学习之ES和HDFS数据交换

ES作为强大的搜索引擎，HDFS是分布式文件系统。ES可以将自身的Document导入到HDFS中用作备份，ES也可以将存储在HDFS上的结构化文件导入为ES的中的Document。而ES-Hadoop正是这两者之间的一个connector1，将数据从ES导出到HDFS1.1，数据准备，在ES中创建Index和Type，并创建document。在我的例子中，Index是my

2017-09-01 15:44:57 23475

原创一个使用中文分词的完整Demo

本文将首先将介绍如何在ES中使用中文分词器IK，然后对比一下IK分词器和默认的standard分词器的差别，最后给出一个Java访问ES的demo1，安装中文分词器。下载与ES版本相对应的IK版本。IK下载以及IK和ES版本对应关系见：https://github.com/medcl/elasticsearch-analysis-ik解压下载的zip文件，进入解压文件的根目

2017-04-17 15:13:52 4329

原创解决MapReduce任务在windows本地执行的NullPointerException问题

为了能在调试MapReduce任务阶段有更好的工作效率，我们可以把URI的Schema设置为file:///，这样MapReduce任务就可以范围windows本地文件夹。当我在尝试这么做的时候出现了如下的空指针异常Exception in thread "main" java.lang.NullPointerExceptionat java.lang.ProcessBuilder

2017-03-01 11:06:25 4092

原创用Spark Streaming+Kafka实现订单数和GMV的实时更新

前言在双十一这样的节日，很多电商都会在大屏幕上显示实时的订单总量和GMV总额。由于订单数量巨大，不可能每隔一秒就到数据库里进行一次SQL的数据统计，这时候就需要用到流式计算。本文将介绍一个简单的Demo，讲解如何通过Spark Stream消费来自Kafka中订单信息，然后计算订单的数量和金额。总体流程一个完整的流程大概如下图所示。用户下单之

2017-02-04 15:04:11 6413

原创基于LDAP和Sentry的大数据认证和鉴权解决方案--Part Two:Sentry集成

上一篇文章中，介绍了LDAP和HUE，Impala以及Hive的集成来完成了用户认证的工作，接下来我们聊一下如何使用Sentry来实现对数据的授权管理。Sentry一旦和Hive集成，就会接管Hive的Metadata，也就是说。如果没有集成Sentry，Hive的metadata是存放在Hive自己的metadata数据库中的，但一旦和Sentry整合，这些metadata信息就会保

2016-12-28 18:51:08 8400 3

原创基于LDAP和Sentry的大数据认证和鉴权解决方案--Part One:LDAP集成

1，背景项目中需要对大数据平台进行数据权限管理，涉及到数据访问的认证和鉴权。大数据平台中有三个数据访问的入口：HUE，impala-shell和beeline（for hive）。每种入口都必须提供用户名和密码，并且，根据用户所在的角色，能访问的数据库和表是各不相同的。在项目中采用了LDAP来作为用户的认证机制，使用Sentry来对用户进行数据权限的管理。整个大

2016-12-28 14:41:01 7854

原创在clouder manager中使用Flume处理数据链

目标：在Cloudera Manager中创建两个Flume的Agent，Agent1从local file中获取内容，写入到kafka的队列中。Agent2以Agent1的sink作为source，将数据从kafka中读取出来，写入到HDFS中。注意我的Cloudera Manager使用的是CDH5.8的Parcel，在这个版本中，Kafka使用的是0.9.

2016-12-06 15:02:59 5430 1

原创 KUDU安装

Kudu是一个比较新的大数据组建，在国内大规模应用的公司并不多，kudu的安装文档也只找到官网上的一份，自己在按照官网的步骤进行安装的过程中也遇到了一些问题，现记录一下完整的安装过程：Step1，配置Yum的Repository。使用Yum来安装kudu，但由于kudu还不是Yum的常规组建，直接安装会找不到kudu，所以第一步需要将kudu的repo文件下载并放置到合适的

2016-09-14 14:31:43 12168 3

u014728303的博客