
大数据
文章平均质量分 52
wjmmjr1
这个作者很懒,什么都没留下…
展开
-
Ranger集成CDH Hive
安装HIVE插件只对使用JDBC方式访问HIVE的请求进行权限管理,HIVE-CLI不受限制!解压文件ranger-2.1.0-hive-plugin.tar.gz并修改install.properties文件#ranger admin的路径POLICY_MGR_URL=http://cdh04:6080#hive服务名称REPOSITORY_NAME=hivedev#hive的安装路径COMPONENT_INSTALL_DIR_NAME=/opt/cloudera/parcels/CDH/原创 2021-05-28 11:29:41 · 2253 阅读 · 5 评论 -
Ranger集成CDH impala3.4
CM的impala配置如下:server-name的值为ranger-hive插件所在的节点,impala要去此节点读取策略在启动impala时加载ranger相关文件,如xasecure-audit.xml文件等,可将hive配置文件目录的xasecure-audit.xml等文件加载到impala相关进程的配置文件目录中(所有impala节点都需修改)如图,添加内容:重启Impala服务...原创 2021-05-28 11:22:34 · 1342 阅读 · 1 评论 -
azkaban编译安装配置文档
参考官方文档: http://azkaban.github.io/azkaban/docs/latest/azkaban的配置文件说明:http://azkaban.github.io/azkaban/docs/latest/#configuration本文挡主要参考azkaban的官方文档。在azkaban3.0 以后的版本,提供了3中安装模式。单 solo-server mode,...转载 2019-01-10 14:24:26 · 406 阅读 · 1 评论 -
impala 和 kudu
1. impala(官网)实时交互SQL大数据查询工具 它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 Impala的最大特点也是最大卖点就是它的快速。 Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式 通过使用与商用并行关系数据库中类似的分布式查询引擎,可以直接从HDFS或HBase中用SELECT、JOIN和统...转载 2018-08-01 14:24:03 · 2041 阅读 · 0 评论 -
使用Spark Streaming + Kudu + Impala构建一个预测引擎
Spark Streaming Impala 随着用户使用天数的增加,不管你的业务是扩大还是缩减了,为什么你的大数据中心架构保持线性增长的趋势?很明显需要一个稳定的基本架构来保障你的业务线。当你的客户处在休眠期,或者你的业务处在淡季,你增加的计算资源就处在浪费阶段;相对应地,当你的业务在旺季期,或者每周一每个人对上周的数据进行查询分析,有多少次你忒想拥有额外的计算资源。根据需求水平...转载 2018-08-01 10:42:44 · 813 阅读 · 0 评论 -
Spark集群高可用HA配置
Spark集群高可用HA配置转自:https://www.cnblogs.com/nswdxpg/p/8528980.html本文中的Spark集群包含三个节点,分别是Master,Worker1,Worker2。1、在Master机器上安装Zookeeper,本文安装在/usr/etc目录下2、在Master机器配置Zookeeper 2.1、cp /usr/etc/zoo...转载 2018-07-22 15:29:01 · 259 阅读 · 0 评论 -
Spark createDirectStream 维护 Kafka offset(Scala)
转自:https://www.cnblogs.com/zhangtianyuan/p/8483082.htmlcreateDirectStream方式需要自己维护offset,使程序可以实现中断后从中断处继续消费数据。KafkaManager.scala1234567891011121314151617181920212223242526272829303132333435363738394041...转载 2018-07-14 09:32:09 · 674 阅读 · 0 评论 -
SparkStreaming参数配置
转载 2018-07-06 17:16:24 · 1139 阅读 · 0 评论 -
ELK原理与介绍
转自:https://www.cnblogs.com/aresxin/p/8035137.html为什么用到ELK:一般我们需要进行日志分析场景:直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景中,此方法效率低下,面临问题包括日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询。需要集中化的日志管理,所有服务器上的日志收集汇总。常见解决思路是建立集中式日志...转载 2018-07-16 21:32:48 · 221 阅读 · 0 评论 -
kafka offset的存储
转自:https://www.cnblogs.com/smartloli/p/6266453.html之前版本,Kafka其实存在一个比较大的隐患,就是利用 Zookeeper 来存储记录每个消费者/组的消费进度。目前,Kafka 官网已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。它实现的原理是:利用 Kafka 自身的 Top...转载 2018-05-31 10:23:42 · 1198 阅读 · 0 评论