Caron_xcb-优快云博客

原创大数据可视化——Superset1.0版本安装、数据源配置、各种错误解决（精华）

1、准备Anaconda3环境注意：建议使用python3.7, 兼容性更好配置conda国内镜像 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main conda config --set show_channe

2021-02-10 11:56:02 1729 4

原创大数据——clickhouse20.11.4.13在线安装新版本、配置与使用

文章目录一、简介二、准备工作1、CentOS取消打开文件数限制2、 CentOS取消SELINUX3、关闭防火墙4、安装依赖三、在线安装1、安装1、安装命令2、配置文件2、副本1、副本写入流程2、配置四、表引擎1、TinyLog2、Memory3、MergeTree4、二级索引5、ReplacingMergeTree6、SummingMergeTree五、数据类型1、整型2、浮点型3、布尔型4、Decimal 型5、字符串6、枚举类型7、时间类型8、数组六、SQL操作1、Insert2、Update

2021-01-25 18:51:28 998

原创 DataX源码编译——支持mysql8.X

DataX简介：DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。github地址： https://github.com/alibaba/DataX1.使用IDEA打开项目2、修改源码注意：全部都需要替换，共有三处替换 convertToNull 为 CONVERT_TO_NULL3、更换mysql-connector-java驱动的版本号4/

2020-09-27 14:20:28 719

原创大数据——DBT：dbt集成数据质量监控插件elementary（生产环境篇）

elementary数据可以重新生成到数据库中。文件位置在dbt项目的根目录下。安装好dbt相关环境。

2022-11-08 15:55:51 1731

原创大数据——StarRocks 实现高可用连接以及负载均衡（Keepalived+Haproxy服务高可用，outlook邮箱使用mailx报警）

StarRocks 实现高可用连接以及负载均衡，使用Keepalived+Haproxy实现服务自身的高可用，同时监控StarRocks，使用mailx配置outlook邮箱完成vip漂移报警

2022-11-04 17:24:40 3751

原创大数据——DBT：dbt的数据质量监控插件re_data二次开发及编译（生产环境篇）

dbt的数据质量监控插件re_data的二次开发及编译功能一：报警功能添加功能二：增加dbt run结果的数据监控表功能三：增加re_data报警信息表的报警数据

2022-10-13 15:24:41 2306

原创大数据可视化——Apache Superset连接 Amazon Athena数据源展示s3数据

安装：JDBC方式需要额外的jar包，此处选择以下方式连接：pip install PyAthena==1.8.0连接配置：连接数据源的方式awsathena+rest://:@athena.ap-southeast-1.amazonaws.com/default?s3_staging_dir=s3%3A//hcp-bmg-dev/Athena/tables/出现如下错误：‘Select’ object has no attribute ‘_simple_int_clause’请调整pi

2022-05-31 18:31:23 566

原创大数据——Redshift通过UDF函数实现金融业XIRR函数

函数简介：https://support.microsoft.com/zh-cn/office/xirr-%e5%87%bd%e6%95%b0-de1242ec-6477-445b-b11b-a303ad9adc9d?ui=zh-cn&rs=zh-cn&ad=cn编写python UDF函数CREATE OR REPLACE FUNCTION xirr(dates VARCHAR ,moneys VARCHAR)RETURNS numeric(10,6) IMMUTABLEAS $

2022-04-07 12:33:58 2151

原创大数据——DBT：数据治理、血缘关系DBT的安装及测试（基础使用篇）

DBT血缘关系监控，数据质量效验都很方便

2022-03-27 15:58:51 6131

原创大数据——PostgreSQL快速安装使用及简单命令

1、安装存储库 RPM：sudo yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm2、安装指定版本sudo yum install -y postgresql12-server3、初始化sudo /usr/pgsql-12/bin/postgresql-12-setup initdb4、激活并开启sudo

2022-03-27 14:49:34 2966

原创解决方案：mac上安装Homebrew 报错：Failed to connect to raw.githubusercontent.com port 443: Connection refused

错误：解决方案：修改hosts文件：sudo vim /etc/hosts确定网页对应的IP进行转换添加：199.232.68.133 raw.githubusercontent.com之后重新运行命令就可以了

2021-10-15 16:28:10 384 1

原创大数据——使用prometheus+grafana监控clickhouse集群相关指标

一、准备prometheus下载https://prometheus.io/download/#prometheus

2021-09-17 18:52:08 1243

原创大数据——azkaban3.90.0的源码编译与安装以及ssl配置（http转https）

一、下载源码gitHub：https://github.com/azkaban/azkaban#readme二、上传到集群：解压unzip azkaban-master.zip进入解压目录：./gradlew distTarcp /azkaban-master/azkaban-web-server/build/distributions/azkaban-web-server-0.1.0-SNAPSHOT.tar.gz /home/work/work/azkaban/cp /azkaba

2021-09-06 16:42:21 322

原创 Apache Dolphinscheduler —— CDH6.3.2集群模式部署(扩容)

一、前期准备参考文章： https://blog.youkuaiyun.com/qq_42502354/article/details/116537022?spm=1001.2014.3001.55011、将新的机器选择同一版本安装相应 Apache Dolphinscheduler查看配置文件安装位置installPath="/opt/dolphinscheduler"解压安装包到该目录2、添加 jar 包还需要手动添加 [ mysql-connector-java 驱动 jar ] 包到 lib 目录

2021-07-30 11:24:16 1101

原创大数据——ML SQL 2.1.0 安装配置

ML SQL 2.1.0 安装配置一、准备下载地址：http://download.mlsql.tech/例如：mlsql-engine_2.4-2.1.0-SNAPSHOT.tar.gz2.4以及3.0 都表示依赖的Spark版本2.1.0 表示MLSQL Engine的自身的版本二、mlsql-console配置1、解压tar -zxvf mlsql-console-2.1.0-SNAPSHOT.tar.gz -C /opt/moudle/tar -zxvf mlsql-engine

2021-07-16 14:10:36 521 7

原创 Apache Dolphinscheduler —— CDH6.3.2集群模式部署(Cluster)

Apache Dolphinscheduler 一、前期准备1、基础环境配置2、下载二进制tar.gz包3、创建部署用户和hosts映射4、配置hosts映射和ssh打通及修改目录权限5、数据库初始化二、Apache Dolphinscheduler配置修改1、数据库配置2、修改运行参数三、一键部署1、执行2、登录3、启停服务一、前期准备1、基础环境配置关于CDH6.3.2基础配置如下，和官网要求存在版本差距，并不影响：MySQL (5.6.24)JDK (1.8.0_292) ，安装好后在/et

2021-05-08 19:10:45 3931 1

原创大数据——Hive on ElasticSearch 配置实战(CDH6.3.2)

1、下载相应的jar包2、2、添加jar配置HIVE_AUX_JARS_PATH=/usr/share/hive3、建表语句1、Elecsearch 存在 { "_index": "es_hive_test", "_type": "doc", "_id": "w", "_score": 1, "_source": { "id": "23", "area": "hangzhou", "name": "lisi5"

2021-02-03 14:46:02 757

原创 Linux——shell脚本日期时间相关使用

文章目录Linux日期时间显示输出1、输出当前年月日2、输出当前时间(时分)3、输出当前时间(时分秒)4、输出星期5、组合输出日期时间5.1输出年月日5.2输出时分秒5.3输出年月日时分秒5.4当前时间指定的日期5.5获取上一周周一到周日时间6、输出月时间计算Linux日期时间显示输出1、输出当前年月日echo $(date +%F)2014-02-212、输出当前时间(时分)echo $(date +%R)12:453、输出当前时间(时分秒)echo $(date +%T)12:

2021-01-25 18:58:28 12055

原创集群监控——Zabbix部署

1 集群规划2 准备工作关闭防火墙（3台节点，已关闭） sudo service iptables stop sudo chkconfig iptables off关闭SELinux（hadoop102）修改配置文件/etc/selinux/configsudo vim /etc/selinux/config # This file controls the state of SELinux on the system. # SELINUX= can take one of th

2020-07-16 18:37:36 3924

原创数据仓库——可视化报表superset

安装Minicondaconda是一个开源的包、环境管理器，可以用于在同一个机器上安装不同Python版本的软件包及其依赖，并能够在不同的Python环境之间切换，Anaconda包括Conda、Python以及一大堆安装好的工具包，比如：numpy、pandas等，Miniconda包括Conda、Python。此处，我们不需要如此多的工具包，故选择MiniConda。1）下载Miniconda（Python3版本）下载地址：https://repo.anaconda.com/miniconda/

2020-07-16 17:56:38 1115

原创大数据学习hadoop3.1.3——Presto-client安装

Presto命令行Client安装1）下载Presto的客户端https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.196/presto-cli-0.196-executable.jar2）将presto-cli-0.196-executable.jar上传到hadoop101的/opt/module/presto文件夹下3）修改文件名称 mv presto-cli-0.196-executable.jar prestoc

2020-07-16 16:59:46 871

原创大数据学习hadoop3.1.3——kylin即席查询——Presto server安装

Presto是一个开源的分布式SQL查询引擎，数据量支持GB到PB字节，主要用来处理秒级查询的场景，不能处理OLTP。Presto架构Presto优缺点Presto Server安装1、将presto-server-0.196.tar.gz导入hadoop102的/opt/software目录下，并解压到/opt/module目录 tar -zxvf presto-server-0.196.tar.gz -C /opt/module/2、修改名称为prestomv presto-serve

2020-07-16 16:53:11 441

原创 git实操——免密登录配置

1、首先进入用户设置2、查看ssh文件是否存在，存在则删除3、创建 ssh-keygen -t rsa -C 邮箱4、复制公钥5、在GitHub仓库中添加ssh6、使用ssh

2020-07-14 09:13:38 699

原创大数据学习hadoop3.1.3——kylin——Zepplin安装使用

1）Zepplin安装与启动（1）将zeppelin-0.8.0-bin-all.tgz上传至Linux（2）解压zeppelin-0.8.0-bin-all.tgz之/opt/module tar -zxvf zeppelin-0.8.0-bin-all.tgz -C /opt/module/（3）修改名称 mv zeppelin-0.8.0-bin-all/ zeppelin（4）修改默认端口号web默认端口号为8080<property> <name>zep

2020-07-08 20:05:17 287

原创大数据学习hadoop3.1.3——Azkaban调度kylin脚本

如何实现每日自动构建cubeKylin提供了Restful API，因次我们可以将构建cube的命令写到脚本中，将脚本交给azkaban或者oozie这样的调度工具，以实现定时调度的功能。脚本如下:#!/bin/bashcube_name=order_cubedo_date=`date -d '-1 day' +%F`#获取00:00时间戳start_date_unix=`date -d "$do_date 08:00:00" +%s`start_date=$(($start_date

2020-07-08 18:33:39 327

原创大数据学习hadoop3.1.3——kylin安装与使用

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin依赖环境安装Kylin前需先部署好Hadoop、Hive、Zookeeper、HBase，并且需要在/etc/profile中配置以下环境变量HADOOP_HOME，HIVE_HOME，HBASE_HOME，记得source使其生效。Kylin搭建1）上传Kylin安装

2020-07-08 18:05:54 688

atlas2.1+CDH6.3.2.rar

DataX源码编译支持mysql8.0，支持Clickhouse的读写

apache-superset1.0执行superset load_examples报错怎么解决