- 博客(39)
- 资源 (1)
- 收藏
- 关注
原创 Ranger集成CDH Hive
安装HIVE插件只对使用JDBC方式访问HIVE的请求进行权限管理,HIVE-CLI不受限制!解压文件ranger-2.1.0-hive-plugin.tar.gz并修改install.properties文件#ranger admin的路径POLICY_MGR_URL=http://cdh04:6080#hive服务名称REPOSITORY_NAME=hivedev#hive的安装路径COMPONENT_INSTALL_DIR_NAME=/opt/cloudera/parcels/CDH/
2021-05-28 11:29:41
2235
5
原创 Ranger集成CDH impala3.4
CM的impala配置如下:server-name的值为ranger-hive插件所在的节点,impala要去此节点读取策略在启动impala时加载ranger相关文件,如xasecure-audit.xml文件等,可将hive配置文件目录的xasecure-audit.xml等文件加载到impala相关进程的配置文件目录中(所有impala节点都需修改)如图,添加内容:重启Impala服务...
2021-05-28 11:22:34
1334
1
原创 CDH Impala3.2升级到Impala3.4
1.下载下载impala-branch-3.4.0.zip,并上传到Linux解压[root@bd-offcn-02 impala]# unzip impala-branch-3.4.0drwxr-xr-x. 24 root root 4096 5月 24 17:11 impala-branch-3.4.0-rw-r--r--. 1 root root 48958262 5月 24 16:08 impala-branch-3.4.0.zip2.编译vi...
2021-05-28 11:18:09
1199
原创 OpenLDAP服务安装
参考:https://cloud.tencent.com/developer/article/1100819众所周知Hadoop安全模块不存储用户和用户组信息,而是依赖Linux系统的用户和用户组。同时在集群开启安全认证模式之后,需要映射Kerberos Principle到Linux的用户以及映射用户到用户组。那么随之而来的问题是如何统一管理用户信息。这里统一管理用户信息的方式有多种(如OpenLDAP、AD等等),在前面Fayson介绍了如何在Redhat6中安装OpenLDAP,本篇文章主要...
2021-04-29 13:49:10
777
1
原创 Centos7 搭建openldap
[root@myc-test ~]# lsb_release -aLSB Version: :core-4.1-amd64:core-4.1-noarch:cxx-4.1-amd64:cxx-4.1-noarch:desktop-4.1-amd64:desktop-4.1-noarch:languages-4.1-amd64:languages-4.1-noarch:printing-4.1-amd64:printing-4.1-noarchDistributor ID: CentOSDescrip.
2021-04-28 12:56:44
945
原创 CDH6.3.2 + Ranger2.1集成 以及hadoop插件安装
此文档是关于CDH6.3.1 + Ranger2.1的集成源码编译详见:https://www.freesion.com/article/72991387429/安装ranger-admin解压ranger-2.0.0-admin.tar.gz并编辑install.propertiesSQL_CONNECTOR_JAR=/usr/share/java/mysql-connector-java.jar#使用mysql作为数据缓存db_root_user=root #mysq.
2021-04-25 10:49:39
7039
6
转载 kafka producer 生产者客户端参数配置
acks = all #指定分区中有多少副本必须收到这条消息,生产者才认为这条消息发送成功 acks = 0 #生产者发送消息之后不需要等待任何服务端的响应 acks = 1 #只要分区的leader副本成功写入消息,那么它就会收到服务端的成功响应 acks = -1 或all #生产者在发送消息之后,需要等待ISR中的所有副本都成功写入消息之后,才能够收到来自服务端的成功响应。 batch.siz...
2020-07-16 19:35:07
362
转载 HBase分析之用户机制
HBase的用户机制和Hadoop的用户机制是一样的。但对刚接触的人来说,相当的隐蔽,启动HBase不用设置用户名、密码,连接HBase也不需要设置用户名、密码。但HBase(实质上是Hadoop)提供了默认的用户来执行操作。超级用户 如果没有特意配置,那么HBase会选择启动HBase的系统用户作为超级用户。如果需要改变超级用户,可通过修改hbase-site.xml来配置,加入hbase...
2020-03-25 11:42:03
1848
原创 Hive表删除表中指定数据
1.分区表删除具体partitionalter table table_name drop partition(partiton_name='xxx'))删除具体partition的部分数据INSERT OVERWRITE TABLE table_name PARTITION(year='2018') SELECT * FROM table_name WHERE ...
2019-12-25 16:45:37
8878
转载 Azure Event Hub 技术研究系列2-发送事件到Event Hub
转自:https://www.cnblogs.com/tianqing/p/6865046.html上篇博文中,我们介绍了Azure Event Hub的一些基本概念和架构:Azure Event Hub 技术研究系列1-Event Hub入门篇本篇文章中,我们继续深入研究,了解Azure Event Hub的创建、编程SDK,实现将事件发送到云端的Azure Event Hub...
2019-07-23 15:53:46
1148
转载 Azure Event Hub 技术研究系列1-Event Hub入门篇
转载自:https://www.cnblogs.com/tianqing/p/6839149.htmlAzure Event Hub的官方介绍:1.Azure 事件中心是超大规模的遥测引入服务,可收集、传输和存储数以百万的事件2.从网站、应用和任何数据流引入云端大规模的遥测数据,进行流式处理和分析可以看出,Azure Event Hub是一个数据的云端接入服务。我们上面的博客中...
2019-07-23 15:52:25
1370
原创 kudu表数据的导入导出
一、kudu数据导出到文件例:impala-shell -l -u xuyi --auth_creds_ok_in_clear -q "select sms_content from warehouse.restart where eventId='filtrate_inbox_sms_delete_sms' " -B --output_delimiter=“,” --print_he...
2019-06-04 09:50:01
3490
原创 JAVA12启用ShenandoahGC
要启用/使用Shenandoah GC,需要以下JVM选项:-XX:+UnlockExperimentalVMOptions -XX:+UseShenandoahGC更多关于调整Shenandoah GC参数的信息,请参考Shenandoah wiki页面。
2019-05-28 18:23:40
870
转载 Java 11新特性概述
转自:http://www.52im.net/article-340-1.html 概述 美国时间2018年09 月 25 日,Oralce 正式发布了 Java 11,这是 Java 8 发布以后支持的首个长期版本。 为什么说是长期版本,看下面的官方发布的支持路线图表: 可以看出 Java 8 扩展支持到 2025 ...
2019-05-22 14:35:42
325
原创 springboot引用外部jar包并打包成jar程序运行
一、引用外部jar包1、在项目中建一个目录并将外部jar包拷贝进去,此处新建目录名为libs2、加入进去的外部jar还是压缩包,要解压一下,如下在Libraries添加java,将libs下的jar包都加进去,此时外部jar就解压完可用了,每个jar包解压完会带有下拉箭头,像上图一样:二、关于程序打包把外部jar包打包进去pom.xml将每个外部jar包以以下形式依赖进去,...
2019-03-01 15:30:43
4538
2
转载 airflow-api 插件的安装与使用介绍
本文转自:https://www.cnblogs.com/ZhangShY/p/10082994.html原文存在错误,使得本人踩了一天的坑,现纠正如下。学习过程可参考https://github.com/teamclairvoyant/airflow-rest-api-plugin1. 安装插件airflow-rest-api1)获取wget https://github.com/...
2019-02-19 16:24:21
1576
转载 shell脚本对空格的严格规定
shell 脚本中 空格的注意问题:= 赋值两边不能有空格,而if比较判断时 = 两边必须加空格shell脚本对空格有严格的规定,赋值语句等号两边不能有空格,而字符串比较,等号两边必须有空格赋值时: i=1 i=$((i+1)) // =用作赋值时,两边绝对不能有空格比较时: if [ $a = $b ] // =用作比较...
2019-02-14 17:06:28
3592
转载 防反射和反序列化破解单例模式
破解代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29...
2019-01-11 19:04:22
163
转载 Mysql和Redis查询速度的对比
“在软件系统中,IO速度比内存速度慢,IO读写在很多情况下会是系统的瓶颈,我们也知道Redis的查询速度比直接查数据库要快,因为Redis将数据存在内存中,而mysql的查询是执行IO操作。那么他们之间到底有多大的差距呢?”实例首先我们看一张图片: 我想大家都很熟悉这张图片,打开网页调试,在日常工作中应该是很频繁的,但是你是否注意到这张图? 这张图上面有很多时间数据...
2019-01-10 19:00:03
15711
1
转载 azkaban编译安装配置文档
参考官方文档: http://azkaban.github.io/azkaban/docs/latest/azkaban的配置文件说明:http://azkaban.github.io/azkaban/docs/latest/#configuration本文挡主要参考azkaban的官方文档。在azkaban3.0 以后的版本,提供了3中安装模式。单 solo-server mode,...
2019-01-10 14:24:26
395
2
转载 Kudu+Impala介绍
转自:http://www.360doc.com/content/18/0913/16/59691344_786386910.shtmlKudu+Impala介绍概述Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Im...
2018-09-13 16:44:00
13282
1
原创 sql with as 用法
WITH AS短语,也叫做子查询部分(subquery factoring),如果WITH AS短语所定义的表名被调用两次以上,则优化器会自动将WITH AS短语所获取的数据放入一个TEMP表里,如果只是被调用一次,则不会。将WITH AS短语里的数据放入一个全局临时表里。很多查询通过这种方法都可以提高速度。with cr as( select CountryRegionCode from...
2018-08-04 14:01:36
1565
转载 impala 和 kudu
1. impala(官网)实时交互SQL大数据查询工具 它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 Impala的最大特点也是最大卖点就是它的快速。 Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式 通过使用与商用并行关系数据库中类似的分布式查询引擎,可以直接从HDFS或HBase中用SELECT、JOIN和统...
2018-08-01 14:24:03
2036
转载 使用Spark Streaming + Kudu + Impala构建一个预测引擎
Spark Streaming Impala 随着用户使用天数的增加,不管你的业务是扩大还是缩减了,为什么你的大数据中心架构保持线性增长的趋势?很明显需要一个稳定的基本架构来保障你的业务线。当你的客户处在休眠期,或者你的业务处在淡季,你增加的计算资源就处在浪费阶段;相对应地,当你的业务在旺季期,或者每周一每个人对上周的数据进行查询分析,有多少次你忒想拥有额外的计算资源。根据需求水平...
2018-08-01 10:42:44
810
转载 HBase region的split
转自:https://www.aliyun.com/jiaocheng/811424.html可以这样理解region和hbase的架构: 1、Table在行的方向上分割为多个Region; 2、Region按大小分割的,每个表开始只有一个region,随着数据增多,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region,之后会有越来越多的region; 3、...
2018-07-22 18:37:36
3751
转载 Flume Sink Group
Sink组为了消除数据处理管道中的单点故障,Flume可以使用负载平衡或故障转移策略,将event发送到不同的sink。sink组是用来创建逻辑上的一组sink。这个组的行为是由sink处理器来决定的,它决定了event的路由策略。agent.sinkgroups=sg1名叫”agent”的agent定义了一个sink的组叫sg1.agent.sinkgroups.sg1.sink...
2018-07-22 17:40:32
2568
转载 Spark集群高可用HA配置
Spark集群高可用HA配置转自:https://www.cnblogs.com/nswdxpg/p/8528980.html本文中的Spark集群包含三个节点,分别是Master,Worker1,Worker2。1、在Master机器上安装Zookeeper,本文安装在/usr/etc目录下2、在Master机器配置Zookeeper 2.1、cp /usr/etc/zoo...
2018-07-22 15:29:01
258
原创 spark用scala读取hive表数据
spark1.6写法: val conf = new SparkConf() val sc = new SparkContext(conf) val hiveContext = new HiveContext(sc) // 指定hive中使用的数据库; hiveContext.sql("use abc_hive_db") //执行hive查询...
2018-07-20 16:59:01
14903
2
转载 mapreduce编程模型之hbase表作为数据源输入输出
package cn.luxh.app; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; ...
2018-07-19 13:29:25
697
转载 ELK原理与介绍
转自:https://www.cnblogs.com/aresxin/p/8035137.html为什么用到ELK:一般我们需要进行日志分析场景:直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景中,此方法效率低下,面临问题包括日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询。需要集中化的日志管理,所有服务器上的日志收集汇总。常见解决思路是建立集中式日志...
2018-07-16 21:32:48
220
转载 Spark createDirectStream 维护 Kafka offset(Scala)
转自:https://www.cnblogs.com/zhangtianyuan/p/8483082.htmlcreateDirectStream方式需要自己维护offset,使程序可以实现中断后从中断处继续消费数据。KafkaManager.scala1234567891011121314151617181920212223242526272829303132333435363738394041...
2018-07-14 09:32:09
671
转载 快速排序
转自:http://developer.51cto.com/art/201403/430986.htm高快省的排序算法有没有既不浪费空间又可以快一点的排序算法呢?那就是“快速排序”啦!光听这个名字是不是就觉得很高端呢。假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数(不要被这个名词吓到了,就是一个用来参照的数,待会...
2018-07-12 22:17:12
95
转载 createStream和createDirectStream的区别
1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费者api,对于所有的receivers接收到的数据将会保存在spark executors中,然后通过Spa...
2018-07-08 17:20:14
4352
转载 hbase列族作用 HBASE列族不能太多的原因
hbase列族作用 HBASE列族不能太多的原因 来源: 昆山拓天信息网责任编辑:小sHRegionServer内部管理了一系列HRegion对象,每个HRegion对 应了table中的一个region,HRegion中由多 个HStore组成。每个HStore对应了Table中的一个column family的存储,可以看出每个columnfamily其实就是一个集中的存储单元,因此最好将具备...
2018-07-06 21:14:43
4424
转载 kafka配置参数
kafka配置参数详解【收藏】3.1 Broker Configs基本配置如下:-broker.id-log.dirs-zookeeper.connectTopic-level配置以及其默认值将在下面讨论。PropertyDefaultDescriptionbroker.id 每个broker都可以用一个唯一的非负整数id进行标识;这个id可以作为broker的“名字”,并且它的存在使...
2018-07-06 19:05:44
212
转载 kafka offset的存储
转自:https://www.cnblogs.com/smartloli/p/6266453.html之前版本,Kafka其实存在一个比较大的隐患,就是利用 Zookeeper 来存储记录每个消费者/组的消费进度。目前,Kafka 官网已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。它实现的原理是:利用 Kafka 自身的 Top...
2018-05-31 10:23:42
1195
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人