zhiliang-chen-优快云博客

翻译 openssl 创建root证书

作为CA,要有私钥(private keys)和公共证书(public certificates)这一密钥对;最先要创建的是root密钥对;包括root私钥(ca.key.pem)和root证书(ca.cert.pem); 这些标识了CAroot CA不直接签发服务端或客户端证书,而是签发中间CA(intermediate CAs),代表root CA签发证书;这可以使root私钥离线保存,并尽可能少的使用; 私钥的泄漏是灾难性的;准备目录创建存储root密钥和证书的目录mkdir /root/c

2021-08-13 15:57:39 1125

原创 IntelliJ IDEA 开发zookeeper环境设置

zookeeper版本是: apache-zookeeper-3.7.0IntelliJ 版本是: IntelliJ IDEA 2021.1 (Community Edition)1.使用IntelliJ 打开zookeeper源码目录:2. 将conf文件夹下的zoo_sample.cfg复制为zoo.cfg3. 创建数据存储目右击apache-zookeeper-3.7.0[parent]， New->Directory，输入tmp/zookeeper4. 编译zookeeper

2021-04-20 17:07:53 1574

原创 pandas.Series.add参数fill_value

fill_value: None或浮点数;填充NaN值;如果元素在2个series都是NaN,结果还是NaN;pandas的一个重要功能,就是索引对齐,即在2个series里添加对应虚列,值为NaN示例a = pd.Series([1, 1, 1, np.nan], index=['a', 'b', 'c', 'd'])b = pd.Series([1, np.nan, 1, np.nan], index=['a', 'b', 'd', 'e'])a.add(b,fill_value=0)---

2021-01-22 17:50:34 1584

原创 kafka开启kerberos,报错server not found in kerberos database

kafka开启了SASL(kerberos), server.properties配置为sasl.enabled.mechanisms: GSSAPIsecurity.inter.broker.protocol: SASL_PLAINTEXTssl.mode.enable: falseallow.everyone.if.no.acl.found: truesasl.port: 19092服务端的jaas.conf内容为KafkaServer {com.sun.security.auth.m

2020-07-31 10:20:17 21078

原创 Hadoop单机单实例安装

国内镜像//清华大学https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common///北京理工大学http://mirror.bit.edu.cn/apache/hadoop/common/JDK安装yum remove java* -yyum remove jdk* -ywget https://github.com/frekele/oracle-java/releases/download/8u212-b10/jdk-8u212-

2020-07-16 16:49:02 506

原创 hadoop HTTP 查询 JMX

在Namenode information的web端口(默认9870)访问JMX在页面的Utilites->metricshttp://192.168.19.160:9870/jmx//通过qry参数来过滤MXBeanName(即json的name字段)http://192.168.19.160:9870/jmx?qry=Hadoop:*//查询具体的namehttp://192.168.19.160:9870/jmx?qry=Hadoop:service=NameNode,name=J

2020-07-16 16:43:02 1112

原创 prometheus metric_relabel_configs 详解加示例

metric_relabel_configs对拉取的指标样本数据进行标签处理;和relabel_config有相同的配置和动作;无法应用于自动生成的时间序列指标,如up一个用处是屏蔽太昂贵的时序数据;详细解释参看: prometheus relabel_config 详解加示例以prometheus的指标prometheus_engine_queries_concurrent_max为例...

2020-04-25 23:49:37 2635

原创 prometheus relabel_config 详解加示例

relabel_config配置Relabeling(重定义标签),是在拉取(scraping)阶段前,修改target和它的labels;在每个scrape_configs可以定义多个重定义标签的步骤;默认的, target的job标签设置为配置文件里的job_name的值;__address__设置为配置里的targets的值;而instance标签的值,是重定义标签操作之后__ad...

2020-04-25 23:03:46 18236 3

原创 SQL 练习

1. SQL 执行的顺序FROM [ left_table ]ON < join_condition >< join_type > JOIN < right_table >WHERE < where_condition >GROUP BY < group_by_list >WITH < CUBE | RollUP &g...

2019-12-23 09:54:44 388

原创将csv转为parquet

csv内容$ cat test.txt1|2|3|test2|4|6|wwww使用pysparkfrom pyspark import SparkContext,SparkConffrom pyspark.sql import SQLContextfrom pyspark.sql.types import *if __name__ == "__main__": sc =...

2019-11-18 14:26:39 2803

原创 crontab PATH 问题

背景使用anaconda3的虚拟环境python2.7,crontab使用bash调用python,还是系统默认的2.6;诊断应用是环境PATH问题测试脚本$ cd /var/tmp$ vi t.sh#!/bin/bashecho $PATHpythonv -V$ crontab -e* * * * * cd /var/tmp && sh t.sh >...

2019-11-18 14:00:36 1829

翻译使用Crontab调度计划任务

Linux计划任务,可以按分钟,小时,天,月,星期几调度任务;配置文件有2种类型的配置文件系统范围的计划任务单用户的计划任务Linux的分发版本不同,配置文件的路径会不同;CentOS用户的计划任务文件在/var/spool/cron目录下;Ubuntu在/cron/crontabs目录下;系统范围的计划任务文件,有2个目录/etc/crontab,系统范围的用户任务;/...

2019-11-18 12:04:46 478

原创从mysql导入hive脚本

#!/bin/bash#全量更新kn1_base_conf_group#环境设置:u 不存在的变量报错;e 发生错误退出;pipefail 管道有错退出set -euo pipefail#########要更改变的变量########mysql数据库信息MYSQL_HOST="192.168.1.138"MYSQL_PORT="63751"MYSQL_USER='user'M...

2019-11-11 10:08:09 540

原创 impala建表脚本

IMPALA="sudo -u hdfs impala-shell -q"db_name="chenzl"table_name="kn1_base_conf_group"$IMPALA<< EOFUSE ${db_name};DROP TABLE ${table_name};CREATE EXTERNAL TABLE ${table_name}(day_key ...

2019-11-11 10:05:40 1677

原创 hive建表脚本

HIVE="sudo -u hdfs hive"db_name="chenzl"table_name="kn1_base_conf_group"$HIVE<< EOFUSE ${db_name};DROP TABLE ${table_name};CREATE EXTERNAL TABLE ${table_name}(day_key dat...

2019-11-11 09:55:57 1018 2

原创批量指定impalad的执行主机

#!/bin/bash#批量指定impalad的执行主机DIR="/home/chenzl/data/BI"LOG="/home/chenzl/tmp/log.log"rm -f $LOG`touch $LOG`find $DIR -name "*.sh" | while read f; do # 有HIVE_DB字符串 grep "HIVE_DB" $f &g...

2019-11-11 09:47:23 251

原创在hive脚本末尾添加impala REFRESH

在impala shell脚本的末尾,添加REFRESH db.tbname#!/bin/bash#有HIVE_DB和HIVE_TABLE变量的sh文件添加impala 命令DIR="/home/chenzl/data/BI"LOG="/home/chenzl/tmp/log.log"rm -f $LOG`touch $LOG`find $DIR -name "*.sh" |...

2019-11-11 09:36:20 1398

原创 azkaban 安装

在hadoop领域，常见工作流调度系统有：Oozie,Azkaban,Cascading,Hamake环境centos 6.5JDK 8azkaban 3.79hostnameipvps138192.168.1.138vps155192.168.1.155vps156192.168.1.156下载$ cd /var/tmp$ wget ...

2019-11-08 10:15:24 415

原创 MySQL 安装并修改密码策略

mysql 安装,国内镜像,修改默认密码策略

2019-11-07 09:58:11 447

原创 CDH 生产环境安装

环境centos 6.5JDK 8CHD 5.16MySQL 5.7python.2.6 (hue)以三台vps为例: vps138(主),vps155(从),vps156(从)Hostname设置三台的hosts都要相同$ cat /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localh...

2019-11-06 16:00:08 2959

原创 CDH 删除Agent节点

环境centos 6.5JDK 8CDH 5.16CDH 通过CM安装,而不是独立安装组件包;CM移除节点登录web管理界面执行: 主机->所有主机->勾选主机->已选定的操作:停止主机上的角色执行: 主机->所有主机->勾选主机->从群集中删除:勾选"解除授权角色"和"跳过管理角色"执行: 主机->所有主机->勾选主机-&gt...

2019-11-01 11:43:57 1987

原创 CDH iptables 配置

iptables# Generated by iptables-save 2019/4/4*filter:INPUT ACCEPT [0:0]:FORWARD ACCEPT [0:0]:OUTPUT ACCEPT [0:0]# example -A INPUT -s 192.168.0.192 -p tcp -m tcp -m multiport --dports 60010,50...

2019-10-31 15:44:00 314

翻译 CDH 使用内部包仓库

安装web服务以apache为例//# RHEL$ sudo yum install httpd$ sudo service httpd start//# SLES$ sudo zypper install httpd$ sudo service apache2 start//# Ubuntu$ sudo apt-get install httpd$ sudo servic...

2019-10-31 14:54:53 979

翻译 CDH 使用内部Parcel仓库

创建内部Parcel仓库安装web服务以apache为例//# RHEL$ sudo yum install httpd$ sudo service httpd start//# SLES$ sudo zypper install httpd$ sudo service apache2 start//# Ubuntu$ sudo apt-get install httpd...

2019-10-31 14:34:22 4887

翻译 CDH 安装问题处理

KMS HSM问题ERROR: Hadoop KMS could not be started安装Navigator HSM KMS backed by Thales HSM失败,在角色日志里看到的错误信息;可能原因: KMS用户不属于nfast组解决: $ sudo usermod -G nfast kms服务启动失败在/var/log/cloudera-scm-server/cl...

2019-10-31 11:58:11 720

翻译 CDH 组件使用的端口

所有端口都是使用TCP访问要求: Internal(内部)用于组件间通信,External(外部)可用于组件间通信或用户访问;Hadoop组件服务端口访问要求配置项QualifierHDFSDataNode50010外部dfs.datanode.address1004外部dfs.datanode.addressSecure500...

2019-10-30 18:13:29 3493

翻译 HDFS 运行状况检测

HDFS Canary这是HDFS 服务范围(service-wide)运行状况(Healthy)检测,检查基本的客户端操作和操作完成是否在合理的时间内;此测试报告周期运行"canary"测试的结果,按以下顺序操作创建文件,默认路径/tmp/.cloudera_health_monitoring_canary_timestampcanary测试会往文件里写入一些数据,然后读取这些数据并验...

2019-10-30 14:11:18 4593

原创 CDH zookeeper 问题处理

Maximum Request LatencyCDH zookeeper报警: Maximum Request Latency存在隐患 : 请求延迟最大值：32,264。会话超时最大值：40,000。会话超时百分比：80.66%。警告阈值：75.00%。这是CDH的健康值检查,检查项为ZOOKEEPER_SERVER_MAX_LATENCY查看日志/var/log/zookeeper/...

2019-10-29 18:11:21 3684 2

翻译 Zookeeper 要避免的事

配置ZooKeeper时,要避免的一些常见问题:不一致的服务器列表客户端使用的ZooKeeper服务器列表,要和每台ZooKeeper服务器有的一致;客户端列表可以是服务端列表的子集;每台ZooKeeper服务器的列表也要一致;事务日志的位置不正确ZooKeeper最大的性能问题,是事务日志.ZooKeeper在返回响应前会同步事务到存储媒介.独立的事务日志设备,是稳定的好性...

2019-10-29 17:59:14 548

翻译 Zookeeper命令

使用telnet或nc连接Zookeeper服务,输入命令命令说明ruok测试服务是否有错;正常返回imokstat服务器和客户端的总览信息srvr3.3后;列出服务的完整信息cons3.3后;客户端连接/会话的完整信息conf3.3后;服务配置内容crst3.3后;重置所有连接的统计信息dump主导者节点;列出未完成的会话和...

2019-10-29 17:33:09 242

翻译新型聚合组设计,以解决维度诅咒问题(尤其是存在高基数性维度)

摘要维度诅咒,是所有预计算OLAP引擎的严重问题;在1.5之前, kylin使用一些简单的技术处理这个问题,也减轻了问题的严重程度;在开源实践过程中,我们发现这些技术缺乏系统性设计思维,也无法处理很多常见问题;在1.5,我们重新设计了聚合组(aggregation group)机制,以更好地适应所有类型的cube设计场景;介绍已知的是,Kylin通过预计算"cube集"加快查询速度,意...

2019-10-28 16:27:23 469

翻译 kylin 术语

Data Warehouse: 数据仓库(DW或DWH),企业数据仓库(EDW),用于生成报告和数据分析的系统;Business Intelligence: 商业智能(BI),包含一系列的技术和工具,用于将原始数据转换为有意义的和有用的信息,用于商业分析;OLAP: 在线分析处理;OLAP Cube: 一个OLAP cube是一组数据,由0或多个维度组成;Star Schema: 星型模...

2019-10-28 11:21:27 197

翻译 kylin 专有的概念

CUBETable: 作为cubes源的hive表;在构建cubes前要先syncData Model: 描述星型模式数据模型;定义fact/lookup表和过滤条件Cube Descriptor: cube实例的定义和设置;定义使用的model,要包含的dimensions和measures,如何分区segments和处理自动合并等;Cube Instance: cube实例;从Cub...

2019-10-28 10:36:09 355

翻译优化cube设计

分层结构(Hierarchies)理论上,N个维度将得到2^N 个维度组合;但是对一组维度,没必要创建这么多维度组合;例如,如果有3个维度: continent, country, city (从层级来说,更大的维度在更前面),当下钻分析时只需要支持3个group by的组合:group by continentgroup by continent,countrygroup by ...

2019-10-25 17:53:26 475

翻译 Impala SQL语句 COMPUTE STATS

COMPUTE STATS 语句收集卷信息, 表列和分区的数据分布情况;收集的信息存储在元数据库中,用于优化Impala查询;例如,如果Impala能确定一张表是大还是小,表里有多少唯一值,就可以为join查询或插入操作组织和并行化工作线程;实例CDH 5.10 / Impala 2.8之后,可以对分区表使用COMPUTE INCREMENTAL STATS,以替代对全表或一次一个分区的操...

2019-10-25 14:35:50 5660

翻译 Impala查询参数 APPX_COUNT_DISTINCT

允许在单条查询中有多个COUNT(DISTINCT)操作,通过在内部重写COUNT(DISTINCT)为NDV()函数;获得的结果是近似的;默认,一条查询只能有一个COUNT(DISTINCT)CDH 5.2以上支持;值: Boolean;0或false;1或true;其他值解释为false;默认值: false(set语句显示为0)实例> select count(disti...

2019-10-25 12:15:15 1628

原创 Hue impala count 问题

在hue中,使用impala查询时, distinct host 查出结果为 2089, 而使用count(distinct host) 查出结果为2034;通过查看DISTINCT Operator, 看到开启自动将COUNT(DISTINCT)重写为NDV(),通过加上查询参数APPX_COUNT_DISTINCT在hue里,使用NDV(host) 查出结果为2034, 可知HUE连接...

2019-10-24 18:06:56 741

原创 logstash 插件使用介绍

logstash 插件使用介绍logstash 的配置有input,filter,output三个区;其中input负责从外部读取数据,转换为logstash事件;logstash事件,json格式的数据结构,json的key即为"字段";filter区,对input后的事件进行数据处理,匹配"字段"处理数据;output区,将事件输入到目标设备;实例input { std...

2019-10-23 09:35:50 351

原创 logstash 读取mysql,写入hdfs

环境centos 6.5JDK 8Logstash 6.8logstash安装,参见Logstash RPM安装mysql-connector安装$ cd /var/tmp$ wget https://mirrors.tuna.tsinghua.edu.cn/mysql/downloads/Connector-J/mysql-connector-java-5.1.48.zip$...

2019-10-22 18:10:33 909

原创 kibana RPM 安装

环境centos 7.2JKD 11elasticsearch 7.4.0国内镜像https://mirrors.tuna.tsinghua.edu.cn/elasticstack/安装$ cd /var/tmp//# 下载wget https://mirrors.tuna.tsinghua.edu.cn/elasticstack/7.x/yum/7.4.0/kibana...

2019-10-17 17:37:07 1574

CCNA 最新题150

HTML教程.chm

Linux命令大全(修改版).chm

Linux高级路由和流量控制

微思CCNA实验手册

空空如也