
大数据生态圈
文章平均质量分 82
mnasd
这个作者很懒,什么都没留下…
展开
-
ClickHouse—用户权限控制
ClickHouse使用Role-Based Access Control(RBAC),进行用户权限管理。用户()角色(Role)权限策略(Row Policy)配置文件()资源配额(Quota)可以通过两种方式对ClickHouse进行权限控制。类似于MySQL的SQL驱动权限控制(SQL-driven workflow)该方法默认关闭,需要开启(具体操作请看下文)SQL-driven workflow方式在20.1.2.4版本才开始支持通过配置文件进行权限控制(users.xml。翻译 2022-10-28 10:47:02 · 4352 阅读 · 0 评论 -
Canal1.1.5最新版安装部署及详细配置
版本根据情况自行调整,最新版本参考:https://github.com/alibaba/canal/releasescanal角色canal-admin:canal控制台,可以统一管理canal服务canal-deployer:也是canal-server:canal的一个节点服务canal-instance: canal-server中的一个处理实例,可以处理不同的业务逻辑。安装canal-admin#进入安装包cd /opt/canal #下载admin安装包wget h.原创 2022-05-12 22:37:19 · 1629 阅读 · 0 评论 -
Zookeeper 扫盲 :disappointed_relieved:
配置文件详解:tickTime:基本事件单元,以毫秒为单位,这个时间作为 Zookeeper 服务器之间或客户端之间维持心跳的时间间隔dataDir:存储内存中数据库快照的位置,顾名思义就是 Zookeeper 保存数据的目录,默认情况下,Zookeeper 将写数据的日志文件也保存到这个目录里clientPort:这个端口就是客户端连接 Zookeeper 服务器的端口,Zookeeper 会监...转载 2018-05-31 08:41:45 · 373 阅读 · 0 评论 -
zookeeper的配置参数详解(zoo.cfg)
配置参数详解(主要是%ZOOKEEPER_HOME%/conf/zoo.cfg文件) 参数名说明clientPort客户端连接server的端口,即对外服务端口,一般设置为2181吧。dataDir存储快照文件snapshot的目录。默认情况下,事务日志也会存储在这里。建议同时配置参数dataLogDir, 事务日志的写性能直接影响zk性能。tickTimeZK中的一个时间单元。ZK中所有时间都是...转载 2018-05-30 13:42:53 · 839 阅读 · 0 评论 -
zookeeper运维
尽管zookeeper在编程上有很多的阱陷,API也非常的难用,但zookeeper服务本身可以说是很牢靠的了,所以在网上貌似关于运维的文章比较少。但省心并不代表不会出麻烦,下面总结下zookeeper运维相关的东东。重要的参考资料这里有一个很好的Pdf,介绍了很多zookeeper的东东,作者是zookeeper的committer之一:http://www.infoq.com/presenta...转载 2018-04-26 21:01:09 · 243 阅读 · 0 评论 -
jupyterhub docker k8s
python3.5编译安装 yum install gcc yum install openssl openssl-devel yum install sqlite-devel tar -zxvf Python-3.5.2.tgz cd Python-3.5.2/ ./configure --prefix=/opt/python make && make in...原创 2018-03-15 17:08:48 · 2572 阅读 · 1 评论 -
az批量update
#!/usr/bin/env python #coding:utf-8 import MySQLdbtry: conn=MySQLdb.connect(host='XXXX',user='XXXXX',passwd='XXXX',db='azkaban_177',port=3306) cur=conn.cursor() sql="s...原创 2018-07-13 09:56:52 · 126 阅读 · 0 评论 -
spark livy
livy是cloudera开发的通过REST来连接。管理spark的解决方案,此文记录在使用livy中遇到的一些问题。livy的安装livy安装不多赘述,可以从github上自己build,也可以直接从livy.io上直接下载tar包。下载livy,解压后,在livy-env中添加export SPARK_HOME=/home/cax/spark/spark-1.6.1-bin-hadoop2.6...转载 2018-06-04 21:11:05 · 2959 阅读 · 0 评论 -
livy-0.5安装
$ cat conf/livy-env.sh#!/usr/bin/env bashSPARK_HOME=/opt/sparkHADOOP_CONF_DIR=/etc/hadoop/conf$ cat conf/livy.conflivy.server.session.factory = yarnlivy.spark.master = yarn-clientlivy.impersona...原创 2018-06-01 16:09:57 · 1267 阅读 · 0 评论 -
Spark2.0.1 on yarn with hue 集群安装部署(六)livy安装测试
一、R安装如果未安装R,可以先安装R,用于支持SparkR,如果yum源中没有R语言的安装包,可以从官网下载相应版本进行手动编译安装。sudo yum install R1安装rJava 下载地址: https://cran.r-project.org/web/packages/rJava/index.html 将下载好的软件包上传至/data/soft目录下 执行以下代码:sudo R CMD ...转载 2018-06-05 15:36:18 · 722 阅读 · 0 评论 -
hue解决timed out(code THRIFTSOCKET):None
Traceback (most recent call last): File "/home/work/hue-3.10.0/desktop/libs/notebook/src/notebook/decorators.py", line 81, in decorator return func(*args, **kwargs) File "/home/work/hue-3.10.0...原创 2018-06-19 17:18:13 · 3071 阅读 · 0 评论 -
HUE4.3安装配置
HUE简介Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,用Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语...转载 2019-05-14 22:32:18 · 530 阅读 · 0 评论 -
Hue 3.8.1在运行SQL时抛出错误
When running SQL statements through Hue against one of our Hadoop clusters running Hortonworks 2.2.4.2-2, we keep getting the following error: Fetching results ran into the following error(s):Co...原创 2018-08-02 15:38:16 · 3462 阅读 · 0 评论 -
hue 提交spark-sql 关于CTAS bug的解决
CTAS就是create table as select的简称。最近在使用SparkSQL来进行快速的自定义SQL分析,因为需要把分析的结果保存下来,所以一定要使用CTAS功能,然而在使用的时候发现了一个bug,当然这个bug已经被报告了,状态依然是unresolved我们用的spark2.2.1版本bug 详情:https://issues.apache.org/jira/bro...原创 2019-04-15 17:05:12 · 608 阅读 · 0 评论 -
Apache Kylin 2.5.0安装和使用
1.背景Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Apache Kylin官网:http://kylin.apache.org/Kylin的官网上每个版本的都提供两个包一个for HBase的一个for CDH的,根...转载 2019-04-24 17:35:54 · 314 阅读 · 0 评论 -
部署Apache Kylin读写分离
https://www.cnblogs.com/yongjian/p/10110119.htmlhttps://blog.51cto.com/xiaolanlan/2082991转载 2019-04-26 11:26:19 · 728 阅读 · 0 评论 -
ambari-Kylin
概述目前上传至ambari-Kylin上的有两个版本,一个是HDP2.6与Kylin2.5.1集成使用的一版;一个是HDP3.0与Kylin2.6.0集成使用的一版。上传至github上的仅支持服务的基本使用,如正常启停,超链接Kylin Web UI功能。但是像服务的启停顺序和服务的自定义告警没有上传至此,需要微信关注公众号大数据实战演练,也可扫描底部二维码,回复ambari-k...转载 2019-04-24 17:08:47 · 1135 阅读 · 0 评论 -
kylin 在Yarn HA模式下报错
yarn 非ha的时候是没问题的在HA模式下,发现报错,信息如下:java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.yarn.client.RequestHedgingRMFailoverProxyProvider not foundyarn.client....原创 2019-04-26 09:41:50 · 1301 阅读 · 0 评论 -
ldap 安装
目前公司内部有多个系统,而每个系统都有自己的一套用户认证。每次新进或离职一位同事,我们这边OPS运维组的小伙伴们,都要在每个系统上去添加用户,搞得小伙伴们很不爽。为了让OPS运维组的小伙伴们,从这个繁琐的工作中解放出来,同时也为了统一管理所有系统的用户认证,我们决定启用ldap。这样每个系统的用户认证全部通过ldap来进行,而每个系统的权限就使用各自系统的权限管理即可。一、OpenLDAP简介在安装OpenLDAP之前,我们首先来介绍下LDAP。LDAP是一款轻量级目录访问协议(Lightw转载 2020-07-12 21:45:55 · 828 阅读 · 0 评论 -
phoenix搭建
环境建议使用apache 版本的环境,使用cdh可能会出现一些问题。请参考stack overflow上非apache版本的hbase报错描述:https://stackoverflow.com/questions/31849454/using-phoenix-with-cloudera-hbase-installed-from-repo下载官方下载地址:https://mirro...转载 2018-09-10 16:02:36 · 713 阅读 · 0 评论 -
Hue配置LDAP身份认证(Direct bind方式)
Hue的身份认证方式 通过LDAP进行身份认证的方式 Search bind Direct bind 配置LDAP(Direct Bind with Username Pattern: DN string) 准备工作 修改hue.ini 也可以界面化操作 连接hive/impala 验证 重启Hue 可能出现的问题 [LDAP: error code 49 - Invali...转载 2018-12-10 22:26:18 · 4796 阅读 · 0 评论 -
Presto简介
Presto简介不是什么虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品,也不能用来处理在线事务(OLTP)是什么Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。作为Hive和Pig的替代者,Presto不仅能访问HDFS,也能访问不同的数据源,包括:RDBMS和其他数据源(如Cassandra...转载 2019-01-21 23:10:04 · 324 阅读 · 0 评论 -
Presto实战
Presto实战一、Presto简介1、PRESTO是什么?Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。2、它可以做什么?Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。...转载 2019-01-21 23:11:21 · 221 阅读 · 0 评论 -
Presto实战2
介绍 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Presto支持在线数据查询,包括Hive, Cassandra, Mysql关系数据库以及专有数据存储。也支持Redis,Mongodb,Kafak这样的系统通过SQL语句...转载 2019-02-17 21:01:58 · 642 阅读 · 0 评论 -
presto 0.166概述
presto是什么是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级使用的技术,如向量计算,动态编译执⾏计划,优化的ORC和Parquet Reader等presto不太支持存储过程...转载 2019-05-19 10:08:36 · 197 阅读 · 0 评论 -
Presto查询优化
Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。查询语言是类ANSI SQL语句。笔者在多个项目中用到Presto做即席查询,总结了一些优化措施。一、数据存储合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能。 使用列式存储 Presto对ORC文件读取做了特定优化,因...转载 2019-05-14 22:23:25 · 3251 阅读 · 0 评论 -
使用Phoenix通过sql语句更新操作hbase数据
hbase 提供很方便的shell脚本,可以对数据表进行 CURD 操作,但是毕竟是有一定的学习成本的,基本上对于开发来讲,sql 语句都是看家本领,那么,有没有一种方法可以把 sql 语句转换成 hbase的原生API呢? 这样就可以通过普通平常的 sql 来对hbase 进行数据的管理,使用成本大大降低。Apache Phoenix 组件就完成了这种需求,官方注解为 “Phoenix - we...转载 2018-09-12 11:19:36 · 2645 阅读 · 0 评论