- 博客(88)
- 资源 (6)
- 收藏
- 关注
翻译 openssl 创建root证书
作为CA,要有私钥(private keys)和公共证书(public certificates)这一密钥对;最先要创建的是root密钥对;包括root私钥(ca.key.pem)和root证书(ca.cert.pem); 这些标识了CAroot CA不直接签发服务端或客户端证书,而是签发中间CA(intermediate CAs),代表root CA签发证书;这可以使root私钥离线保存,并尽可能少的使用; 私钥的泄漏是灾难性的;准备目录创建存储root密钥和证书的目录mkdir /root/c
2021-08-13 15:57:39
999
原创 IntelliJ IDEA 开发zookeeper环境设置
zookeeper版本是: apache-zookeeper-3.7.0IntelliJ 版本是: IntelliJ IDEA 2021.1 (Community Edition)1.使用IntelliJ 打开zookeeper源码目录:2. 将conf文件夹下的zoo_sample.cfg复制为zoo.cfg3. 创建数据存储目右击apache-zookeeper-3.7.0[parent], New->Directory,输入tmp/zookeeper4. 编译zookeeper
2021-04-20 17:07:53
1452
原创 pandas.Series.add参数fill_value
fill_value: None或浮点数;填充NaN值;如果元素在2个series都是NaN,结果还是NaN;pandas的一个重要功能,就是索引对齐,即在2个series里添加对应虚列,值为NaN示例a = pd.Series([1, 1, 1, np.nan], index=['a', 'b', 'c', 'd'])b = pd.Series([1, np.nan, 1, np.nan], index=['a', 'b', 'd', 'e'])a.add(b,fill_value=0)---
2021-01-22 17:50:34
1495
原创 kafka开启kerberos,报错server not found in kerberos database
kafka开启了SASL(kerberos), server.properties配置为sasl.enabled.mechanisms: GSSAPIsecurity.inter.broker.protocol: SASL_PLAINTEXTssl.mode.enable: falseallow.everyone.if.no.acl.found: truesasl.port: 19092服务端的jaas.conf内容为KafkaServer {com.sun.security.auth.m
2020-07-31 10:20:17
20274
原创 Hadoop单机单实例安装
国内镜像//清华大学https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common///北京理工大学http://mirror.bit.edu.cn/apache/hadoop/common/JDK安装yum remove java* -yyum remove jdk* -ywget https://github.com/frekele/oracle-java/releases/download/8u212-b10/jdk-8u212-
2020-07-16 16:49:02
467
原创 hadoop HTTP 查询 JMX
在Namenode information的web端口(默认9870)访问JMX在页面的Utilites->metricshttp://192.168.19.160:9870/jmx//通过qry参数来过滤MXBeanName(即json的name字段)http://192.168.19.160:9870/jmx?qry=Hadoop:*//查询具体的namehttp://192.168.19.160:9870/jmx?qry=Hadoop:service=NameNode,name=J
2020-07-16 16:43:02
950
原创 prometheus metric_relabel_configs 详解加示例
metric_relabel_configs对拉取的指标样本数据进行标签处理;和relabel_config有相同的配置和动作;无法应用于自动生成的时间序列指标,如up一个用处是屏蔽太昂贵的时序数据;详细解释参看: prometheus relabel_config 详解加示例以prometheus的指标prometheus_engine_queries_concurrent_max为例...
2020-04-25 23:49:37
2514
原创 prometheus relabel_config 详解加示例
relabel_config配置Relabeling(重定义标签),是在拉取(scraping)阶段前,修改target和它的labels;在每个scrape_configs可以定义多个重定义标签的步骤;默认的, target的job标签设置为配置文件里的job_name的值;__address__设置为配置里的targets的值;而instance标签的值,是重定义标签操作之后__ad...
2020-04-25 23:03:46
17489
3
原创 SQL 练习
1. SQL 执行的顺序FROM [ left_table ]ON < join_condition >< join_type > JOIN < right_table >WHERE < where_condition >GROUP BY < group_by_list >WITH < CUBE | RollUP &g...
2019-12-23 09:54:44
326
原创 将csv转为parquet
csv内容$ cat test.txt1|2|3|test2|4|6|wwww使用pysparkfrom pyspark import SparkContext,SparkConffrom pyspark.sql import SQLContextfrom pyspark.sql.types import *if __name__ == "__main__": sc =...
2019-11-18 14:26:39
2713
原创 crontab PATH 问题
背景使用anaconda3的虚拟环境python2.7,crontab使用bash调用python,还是系统默认的2.6;诊断应用是环境PATH问题测试脚本$ cd /var/tmp$ vi t.sh#!/bin/bashecho $PATHpythonv -V$ crontab -e* * * * * cd /var/tmp && sh t.sh >...
2019-11-18 14:00:36
1776
翻译 使用Crontab调度计划任务
Linux计划任务,可以按分钟,小时,天,月,星期几调度任务;配置文件有2种类型的配置文件系统范围的计划任务单用户的计划任务Linux的分发版本不同,配置文件的路径会不同;CentOS用户的计划任务文件在/var/spool/cron目录下;Ubuntu在/cron/crontabs目录下;系统范围的计划任务文件,有2个目录/etc/crontab,系统范围的用户任务;/...
2019-11-18 12:04:46
440
原创 从mysql导入hive脚本
#!/bin/bash#全量更新kn1_base_conf_group#环境设置:u 不存在的变量报错;e 发生错误退出;pipefail 管道有错退出set -euo pipefail#########要更改变的变量########mysql数据库信息MYSQL_HOST="192.168.1.138"MYSQL_PORT="63751"MYSQL_USER='user'M...
2019-11-11 10:08:09
498
原创 impala建表脚本
IMPALA="sudo -u hdfs impala-shell -q"db_name="chenzl"table_name="kn1_base_conf_group"$IMPALA<< EOFUSE ${db_name};DROP TABLE ${table_name};CREATE EXTERNAL TABLE ${table_name}(day_key ...
2019-11-11 10:05:40
1647
原创 hive建表脚本
HIVE="sudo -u hdfs hive"db_name="chenzl"table_name="kn1_base_conf_group"$HIVE<< EOFUSE ${db_name};DROP TABLE ${table_name};CREATE EXTERNAL TABLE ${table_name}(day_key dat...
2019-11-11 09:55:57
960
2
原创 批量指定impalad的执行主机
#!/bin/bash#批量指定impalad的执行主机DIR="/home/chenzl/data/BI"LOG="/home/chenzl/tmp/log.log"rm -f $LOG`touch $LOG`find $DIR -name "*.sh" | while read f; do # 有HIVE_DB字符串 grep "HIVE_DB" $f &g...
2019-11-11 09:47:23
226
原创 在hive脚本末尾添加impala REFRESH
在impala shell脚本的末尾,添加REFRESH db.tbname#!/bin/bash#有HIVE_DB和HIVE_TABLE变量的sh文件添加impala 命令DIR="/home/chenzl/data/BI"LOG="/home/chenzl/tmp/log.log"rm -f $LOG`touch $LOG`find $DIR -name "*.sh" |...
2019-11-11 09:36:20
1357
原创 azkaban 安装
在hadoop领域,常见工作流调度系统有:Oozie,Azkaban,Cascading,Hamake环境centos 6.5JDK 8azkaban 3.79hostnameipvps138192.168.1.138vps155192.168.1.155vps156192.168.1.156下载$ cd /var/tmp$ wget ...
2019-11-08 10:15:24
375
原创 CDH 生产环境安装
环境centos 6.5JDK 8CHD 5.16MySQL 5.7python.2.6 (hue)以三台vps为例: vps138(主),vps155(从),vps156(从)Hostname设置三台的hosts都要相同$ cat /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localh...
2019-11-06 16:00:08
1937
原创 CDH 删除Agent节点
环境centos 6.5JDK 8CDH 5.16CDH 通过CM安装,而不是独立安装组件包;CM移除节点登录web管理界面执行: 主机->所有主机->勾选主机->已选定的操作:停止主机上的角色执行: 主机->所有主机->勾选主机->从群集中删除:勾选"解除授权角色"和"跳过管理角色"执行: 主机->所有主机->勾选主机->...
2019-11-01 11:43:57
1921
原创 CDH iptables 配置
iptables# Generated by iptables-save 2019/4/4*filter:INPUT ACCEPT [0:0]:FORWARD ACCEPT [0:0]:OUTPUT ACCEPT [0:0]# example -A INPUT -s 192.168.0.192 -p tcp -m tcp -m multiport --dports 60010,50...
2019-10-31 15:44:00
284
翻译 CDH 使用内部包仓库
安装web服务以apache为例//# RHEL$ sudo yum install httpd$ sudo service httpd start//# SLES$ sudo zypper install httpd$ sudo service apache2 start//# Ubuntu$ sudo apt-get install httpd$ sudo servic...
2019-10-31 14:54:53
949
翻译 CDH 使用内部Parcel仓库
创建内部Parcel仓库安装web服务以apache为例//# RHEL$ sudo yum install httpd$ sudo service httpd start//# SLES$ sudo zypper install httpd$ sudo service apache2 start//# Ubuntu$ sudo apt-get install httpd...
2019-10-31 14:34:22
4804
翻译 CDH 安装问题处理
KMS HSM问题ERROR: Hadoop KMS could not be started安装Navigator HSM KMS backed by Thales HSM失败,在角色日志里看到的错误信息;可能原因: KMS用户不属于nfast组解决: $ sudo usermod -G nfast kms服务启动失败在/var/log/cloudera-scm-server/cl...
2019-10-31 11:58:11
674
翻译 CDH 组件使用的端口
所有端口都是使用TCP访问要求: Internal(内部)用于组件间通信,External(外部)可用于组件间通信或用户访问;Hadoop组件服务端口访问要求配置项QualifierHDFSDataNode50010外部dfs.datanode.address1004外部dfs.datanode.addressSecure500...
2019-10-30 18:13:29
3378
翻译 HDFS 运行状况检测
HDFS Canary这是HDFS 服务范围(service-wide)运行状况(Healthy)检测,检查基本的客户端操作和操作完成是否在合理的时间内;此测试报告周期运行"canary"测试的结果,按以下顺序操作创建文件,默认路径/tmp/.cloudera_health_monitoring_canary_timestampcanary测试会往文件里写入一些数据,然后读取这些数据并验...
2019-10-30 14:11:18
4462
原创 CDH zookeeper 问题处理
Maximum Request LatencyCDH zookeeper报警: Maximum Request Latency存在隐患 : 请求延迟最大值:32,264。会话超时最大值:40,000。会话超时百分比:80.66%。 警告阈值:75.00%。这是CDH的健康值检查,检查项为ZOOKEEPER_SERVER_MAX_LATENCY查看日志/var/log/zookeeper/...
2019-10-29 18:11:21
3544
2
翻译 Zookeeper 要避免的事
配置ZooKeeper时,要避免的一些常见问题:不一致的服务器列表客户端使用的ZooKeeper服务器列表,要和每台ZooKeeper服务器有的一致;客户端列表可以是服务端列表的子集;每台ZooKeeper服务器的列表也要一致;事务日志的位置不正确ZooKeeper最大的性能问题,是事务日志.ZooKeeper在返回响应前会同步事务到存储媒介.独立的事务日志设备,是稳定的好性...
2019-10-29 17:59:14
508
翻译 Zookeeper命令
使用telnet或nc连接Zookeeper服务,输入命令命令说明ruok测试服务是否有错;正常返回imokstat服务器和客户端的总览信息srvr3.3后;列出服务的完整信息cons3.3后;客户端连接/会话的完整信息conf3.3后;服务配置内容crst3.3后;重置所有连接的统计信息dump主导者节点;列出未完成的会话和...
2019-10-29 17:33:09
195
翻译 新型聚合组设计,以解决维度诅咒问题(尤其是存在高基数性维度)
摘要维度诅咒,是所有预计算OLAP引擎的严重问题;在1.5之前, kylin使用一些简单的技术处理这个问题,也减轻了问题的严重程度;在开源实践过程中,我们发现这些技术缺乏系统性设计思维,也无法处理很多常见问题;在1.5,我们重新设计了聚合组(aggregation group)机制,以更好地适应所有类型的cube设计场景;介绍已知的是,Kylin通过预计算"cube集"加快查询速度,意...
2019-10-28 16:27:23
404
翻译 kylin 术语
Data Warehouse: 数据仓库(DW或DWH),企业数据仓库(EDW),用于生成报告和数据分析的系统;Business Intelligence: 商业智能(BI),包含一系列的技术和工具,用于将原始数据转换为有意义的和有用的信息,用于商业分析;OLAP: 在线分析处理;OLAP Cube: 一个OLAP cube是一组数据,由0或多个维度组成;Star Schema: 星型模...
2019-10-28 11:21:27
151
翻译 kylin 专有的概念
CUBETable: 作为cubes源的hive表;在构建cubes前要先syncData Model: 描述星型模式数据模型;定义fact/lookup表和过滤条件Cube Descriptor: cube实例的定义和设置;定义使用的model,要包含的dimensions和measures,如何分区segments和处理自动合并等;Cube Instance: cube实例;从Cub...
2019-10-28 10:36:09
318
翻译 优化cube设计
分层结构(Hierarchies)理论上,N个维度将得到2^N 个维度组合;但是对一组维度,没必要创建这么多维度组合;例如,如果有3个维度: continent, country, city (从层级来说,更大的维度在更前面),当下钻分析时只需要支持3个group by的组合:group by continentgroup by continent,countrygroup by ...
2019-10-25 17:53:26
418
翻译 Impala SQL语句 COMPUTE STATS
COMPUTE STATS 语句收集卷信息, 表列和分区的数据分布情况;收集的信息存储在元数据库中,用于优化Impala查询;例如,如果Impala能确定一张表是大还是小,表里有多少唯一值,就可以为join查询或插入操作组织和并行化工作线程;实例CDH 5.10 / Impala 2.8之后,可以对分区表使用COMPUTE INCREMENTAL STATS,以替代对全表或一次一个分区的操...
2019-10-25 14:35:50
5401
翻译 Impala查询参数 APPX_COUNT_DISTINCT
允许在单条查询中有多个COUNT(DISTINCT)操作,通过在内部重写COUNT(DISTINCT)为NDV()函数;获得的结果是近似的;默认,一条查询只能有一个COUNT(DISTINCT)CDH 5.2以上支持;值: Boolean;0或false;1或true;其他值解释为false;默认值: false(set语句显示为0)实例> select count(disti...
2019-10-25 12:15:15
1565
原创 Hue impala count 问题
在hue中,使用impala查询时, distinct host 查出结果为 2089, 而使用count(distinct host) 查出结果为2034;通过查看DISTINCT Operator, 看到开启自动将COUNT(DISTINCT)重写为NDV(),通过加上查询参数APPX_COUNT_DISTINCT在hue里,使用NDV(host) 查出结果为2034, 可知HUE连接...
2019-10-24 18:06:56
675
原创 logstash 插件使用介绍
logstash 插件使用介绍logstash 的配置有input,filter,output三个区;其中input负责从外部读取数据,转换为logstash事件;logstash事件,json格式的数据结构,json的key即为"字段";filter区,对input后的事件进行数据处理,匹配"字段"处理数据;output区,将事件输入到目标设备;实例input { std...
2019-10-23 09:35:50
315
原创 logstash 读取mysql,写入hdfs
环境centos 6.5JDK 8Logstash 6.8logstash安装,参见Logstash RPM安装mysql-connector安装$ cd /var/tmp$ wget https://mirrors.tuna.tsinghua.edu.cn/mysql/downloads/Connector-J/mysql-connector-java-5.1.48.zip$...
2019-10-22 18:10:33
872
原创 kibana RPM 安装
环境centos 7.2JKD 11elasticsearch 7.4.0国内镜像https://mirrors.tuna.tsinghua.edu.cn/elasticstack/安装$ cd /var/tmp//# 下载wget https://mirrors.tuna.tsinghua.edu.cn/elasticstack/7.x/yum/7.4.0/kibana...
2019-10-17 17:37:07
1541
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人