自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 大数据可视化——Superset1.0版本安装、数据源配置、各种错误解决(精华)

1、准备Anaconda3环境注意:建议使用python3.7, 兼容性更好配置conda国内镜像 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main conda config --set show_channe

2021-02-10 11:56:02 1729 4

原创 大数据——clickhouse20.11.4.13在线安装新版本、配置与使用

文章目录一、简介二、准备工作1、CentOS取消打开文件数限制2、 CentOS取消SELINUX3、 关闭防火墙4、 安装依赖三、在线安装1、安装1、安装命令2、配置文件2、副本1、副本写入流程2、配置四、表引擎1、TinyLog2、Memory3、MergeTree4、二级索引5、ReplacingMergeTree6、SummingMergeTree五、数据类型1、 整型2、 浮点型3、布尔型4、Decimal 型5、字符串6、枚举类型7、时间类型8、数组六、SQL操作1、Insert2、Update

2021-01-25 18:51:28 998

原创 DataX源码编译——支持mysql8.X

DataX简介:DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。github地址: https://github.com/alibaba/DataX1.使用IDEA打开项目2、修改源码注意:全部都需要替换,共有三处替换 convertToNull 为 CONVERT_TO_NULL3、更换mysql-connector-java驱动的版本号4/

2020-09-27 14:20:28 719

原创 大数据——DBT:dbt集成数据质量监控插件elementary(生产环境篇)

elementary数据可以重新生成到数据库中。文件位置在dbt项目的根目录下。安装好dbt相关环境。

2022-11-08 15:55:51 1731

原创 大数据——StarRocks 实现高可用连接以及负载均衡(Keepalived+Haproxy服务高可用,outlook邮箱使用mailx报警)

StarRocks 实现高可用连接以及负载均衡,使用Keepalived+Haproxy实现服务自身的高可用,同时监控StarRocks,使用mailx配置outlook邮箱完成vip漂移报警

2022-11-04 17:24:40 3751

原创 大数据——DBT:dbt的数据质量监控插件re_data二次开发及编译(生产环境篇)

dbt的数据质量监控插件re_data的二次开发及编译功能一:报警功能添加功能二:增加dbt run结果的数据监控表功能三:增加re_data报警信息表的报警数据

2022-10-13 15:24:41 2306

原创 大数据可视化——Apache Superset连接 Amazon Athena数据源展示s3数据

安装:JDBC方式需要额外的jar包,此处选择以下方式连接:pip install PyAthena==1.8.0连接配置:连接数据源的方式awsathena+rest://:@athena.ap-southeast-1.amazonaws.com/default?s3_staging_dir=s3%3A//hcp-bmg-dev/Athena/tables/出现如下错误:‘Select’ object has no attribute ‘_simple_int_clause’请调整pi

2022-05-31 18:31:23 566

原创 大数据——Redshift通过UDF函数实现金融业XIRR函数

函数简介:https://support.microsoft.com/zh-cn/office/xirr-%e5%87%bd%e6%95%b0-de1242ec-6477-445b-b11b-a303ad9adc9d?ui=zh-cn&rs=zh-cn&ad=cn编写python UDF函数CREATE OR REPLACE FUNCTION xirr(dates VARCHAR ,moneys VARCHAR)RETURNS numeric(10,6) IMMUTABLEAS $

2022-04-07 12:33:58 2151

原创 大数据——DBT:数据治理、血缘关系DBT的安装及测试(基础使用篇)

DBT血缘关系监控,数据质量效验都很方便

2022-03-27 15:58:51 6131

原创 大数据——PostgreSQL快速安装使用及简单命令

1、安装存储库 RPM:sudo yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm2、安装指定版本sudo yum install -y postgresql12-server3、初始化sudo /usr/pgsql-12/bin/postgresql-12-setup initdb4、激活并开启sudo

2022-03-27 14:49:34 2966

原创 解决方案:mac上安装Homebrew 报错:Failed to connect to raw.githubusercontent.com port 443: Connection refused

错误:解决方案:修改hosts文件:sudo vim /etc/hosts确定网页对应的IP进行转换添加:199.232.68.133 raw.githubusercontent.com之后重新运行命令就可以了

2021-10-15 16:28:10 384 1

原创 大数据——使用prometheus+grafana监控clickhouse集群相关指标

一、准备prometheus下载https://prometheus.io/download/#prometheus

2021-09-17 18:52:08 1243

原创 大数据——azkaban3.90.0的源码编译与安装以及ssl配置(http转https)

一、下载源码gitHub:https://github.com/azkaban/azkaban#readme二、上传到集群:解压unzip azkaban-master.zip进入解压目录:./gradlew distTarcp /azkaban-master/azkaban-web-server/build/distributions/azkaban-web-server-0.1.0-SNAPSHOT.tar.gz /home/work/work/azkaban/cp /azkaba

2021-09-06 16:42:21 322

原创 Apache Dolphinscheduler —— CDH6.3.2集群模式部署(扩容)

一、前期准备参考文章: https://blog.youkuaiyun.com/qq_42502354/article/details/116537022?spm=1001.2014.3001.55011、将新的机器选择同一版本安装相应 Apache Dolphinscheduler查看配置文件安装位置installPath="/opt/dolphinscheduler"解压安装包到该目录2、添加 jar 包还需要手动添加 [ mysql-connector-java 驱动 jar ] 包到 lib 目录

2021-07-30 11:24:16 1101

原创 大数据——ML SQL 2.1.0 安装配置

ML SQL 2.1.0 安装配置一、准备下载地址:http://download.mlsql.tech/例如:mlsql-engine_2.4-2.1.0-SNAPSHOT.tar.gz2.4以及3.0 都表示依赖的Spark版本2.1.0 表示MLSQL Engine的自身的版本二、mlsql-console配置1、解压tar -zxvf mlsql-console-2.1.0-SNAPSHOT.tar.gz -C /opt/moudle/tar -zxvf mlsql-engine

2021-07-16 14:10:36 521 7

原创 Apache Dolphinscheduler —— CDH6.3.2集群模式部署(Cluster)

Apache Dolphinscheduler 一、前期准备1、基础环境配置2、下载二进制tar.gz包3、创建部署用户和hosts映射4、配置hosts映射和ssh打通及修改目录权限5、数据库初始化二、Apache Dolphinscheduler配置修改1、数据库配置2、修改运行参数三、一键部署1、执行2、登录3、启停服务一、前期准备1、基础环境配置关于CDH6.3.2基础配置如下,和官网要求存在版本差距,并不影响:MySQL (5.6.24)JDK (1.8.0_292) ,安装好后在/et

2021-05-08 19:10:45 3931 1

原创 大数据——Hive on ElasticSearch 配置实战(CDH6.3.2)

1、下载相应的jar包2、2、添加jar配置HIVE_AUX_JARS_PATH=/usr/share/hive3、建表语句1、Elecsearch 存在 { "_index": "es_hive_test", "_type": "doc", "_id": "w", "_score": 1, "_source": { "id": "23", "area": "hangzhou", "name": "lisi5"

2021-02-03 14:46:02 757

原创 Linux——shell脚本日期时间相关使用

文章目录Linux日期时间显示输出1、输出当前年月日2、输出当前时间(时分)3、输出当前时间(时分秒)4、输出星期5、组合输出日期时间5.1输出年月日5.2输出时分秒5.3输出年月日时分秒5.4当前时间指定的日期5.5获取上一周周一到周日时间6、输出月时间计算Linux日期时间显示输出1、输出当前年月日echo $(date +%F)2014-02-212、输出当前时间(时分)echo $(date +%R)12:453、输出当前时间(时分秒)echo $(date +%T)12:

2021-01-25 18:58:28 12055

原创 集群监控——Zabbix部署

1 集群规划2 准备工作关闭防火墙(3台节点,已关闭) sudo service iptables stop sudo chkconfig iptables off关闭SELinux(hadoop102)修改配置文件/etc/selinux/configsudo vim /etc/selinux/config # This file controls the state of SELinux on the system. # SELINUX= can take one of th

2020-07-16 18:37:36 3924

原创 数据仓库——可视化报表superset

安装Minicondaconda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python。此处,我们不需要如此多的工具包,故选择MiniConda。1)下载Miniconda(Python3版本)下载地址:https://repo.anaconda.com/miniconda/

2020-07-16 17:56:38 1115

原创 大数据学习hadoop3.1.3——Presto-client安装

Presto命令行Client安装1)下载Presto的客户端https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.196/presto-cli-0.196-executable.jar2)将presto-cli-0.196-executable.jar上传到hadoop101的/opt/module/presto文件夹下3)修改文件名称 mv presto-cli-0.196-executable.jar prestoc

2020-07-16 16:59:46 871

原创 大数据学习hadoop3.1.3——kylin即席查询——Presto server安装

Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景,不能处理OLTP。Presto架构Presto优缺点Presto Server安装1、将presto-server-0.196.tar.gz导入hadoop102的/opt/software目录下,并解压到/opt/module目录 tar -zxvf presto-server-0.196.tar.gz -C /opt/module/2、修改名称为prestomv presto-serve

2020-07-16 16:53:11 441

原创 git实操——免密登录配置

1、首先进入用户设置2、查看ssh文件是否存在,存在则删除3、创建 ssh-keygen -t rsa -C 邮箱4、复制公钥5、在GitHub仓库中添加ssh6、使用ssh

2020-07-14 09:13:38 699

原创 大数据学习hadoop3.1.3——kylin——Zepplin安装使用

1)Zepplin安装与启动(1)将zeppelin-0.8.0-bin-all.tgz上传至Linux(2)解压zeppelin-0.8.0-bin-all.tgz之/opt/module tar -zxvf zeppelin-0.8.0-bin-all.tgz -C /opt/module/(3)修改名称 mv zeppelin-0.8.0-bin-all/ zeppelin(4)修改默认端口号web默认端口号为8080<property> <name>zep

2020-07-08 20:05:17 287

原创 大数据学习hadoop3.1.3——Azkaban调度kylin脚本

如何实现每日自动构建cubeKylin提供了Restful API,因次我们可以将构建cube的命令写到脚本中,将脚本交给azkaban或者oozie这样的调度工具,以实现定时调度的功能。脚本如下:#!/bin/bashcube_name=order_cubedo_date=`date -d '-1 day' +%F`#获取00:00时间戳start_date_unix=`date -d "$do_date 08:00:00" +%s`start_date=$(($start_date

2020-07-08 18:33:39 327

原创 大数据学习hadoop3.1.3——kylin安装与使用

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin依赖环境安装Kylin前需先部署好Hadoop、Hive、Zookeeper、HBase,并且需要在/etc/profile中配置以下环境变量HADOOP_HOME,HIVE_HOME,HBASE_HOME,记得source使其生效。Kylin搭建1)上传Kylin安装

2020-07-08 18:05:54 688

原创 hadoop学习——Hive on Spark的配置

Hive on Spark编译1)从官网下载Spark源码并解压下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.5/spark-2.4.5.tgz2)上传并解压spark3)进入spark解压后的目录4)执行编译命令[@hadoop101 spark-2.4.5]$ ./dev/make-distribution.sh --name without-hive --tgz -Pyarn -Phadoop-3.1 -Dhadoo

2020-06-26 17:49:43 2039 1

原创 IDEA开发的依赖——hive自定义函数apache-hive-3.1.2

自定义函数1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。3)根据用户自定义函数类别分为以下三种:(1)UDF(User-Defined-Function) 一进一出(2)UDAF(User-Defined Aggregation Function) 聚集函数,多进一出

2020-06-26 16:34:00 1780

原创 大数据hadoop3.1.3——Flume面试题

企业真实面试题(重点)1 你是如何实现Flume数据传输的监控的使用第三方框架Ganglia实时监控Flume。2 Flume的Source,Sink,Channel的作用?你们Source是什么类型?1)作用(1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、...

2020-06-26 16:17:52 221

原创 大数据学习Spark——Windows模式(端口号相关)

1 解压缩文件将文件spark-2.4.5-bin-without-hadoop-scala-2.12.tgz解压缩到无中文无空格的路径中,将hadoop3依赖jar包拷贝到jars目录中。2 启动本地环境1) 执行解压缩文件路径下bin目录中的spark-shell.cmd文件,启动Spark本地环境2) 在bin目录中创建input目录,并添加word.txt文件, 在命令行中输入脚本代码sc.textFile("input/word.txt").flatMap(_.spl

2020-06-26 16:17:19 349

原创 IDEA开发依赖——SparkSQL的开发依赖添加

1、<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>2.4.5</version></dependency>2、<dependency> <groupId>mysql</groupId>

2020-06-26 16:15:42 1395

原创 Linux——Shell中单引号和双引号区别

1)在/home/caron/bin创建一个test.sh文件 vim test.sh 在文件中添加如下内容 #!/bin/bash do_date=$1 echo '$do_date' echo "$do_date" echo "'$do_date'" echo '"$do_date"' echo `date`2)查看执行结果 test.sh 2020-06-14 $do_date 2020-06-14 '2020-06-14' "$do_date" 2020年 06月

2020-06-26 16:14:54 185

原创 IDEA开发依赖——apache-phoenix-5.0.0-HBase-2.0_hbase-2.0.5-bin

Phoenix JDBC的thin client和thick client所需的依赖有冲突,且冲突依赖是不兼容的。在同一应用中,通常也不会同时使用两种客户端。故大家练习时,需将thin client和thick client分开到不同的project中,或者同一个project的两个module中。thick client的依赖如下<dependency> <groupId>org.apache.phoenix</groupId> <ar

2020-06-26 16:13:57 1406

原创 大数据hadoop3.1.3学习笔记——HBase的安装配置(高可用配置可选)

1 Zookeeper正常部署首先保证Zookeeper集群的正常部署,并启动之:使用自定义脚本启动: zk start2 Hadoop正常部署Hadoop集群的正常部署并启动: sbin/start-dfs.sh sbin/start-yarn.sh3 HBase的解压解压Hbase到指定目录: tar -zxvf hbase-2.0.5-bin.tar.gz -C /opt/module mv /opt/module/hbase-2.0.5 /opt/module/hbase

2020-06-19 18:47:16 2274 2

原创 大数据学习hadoop3.1.3——Sqoop安装

1 下载并解压1)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中3)解压sqoop安装包到指定目录,如: tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/4)解压sqoop安装包到指定目录,如: mv s

2020-06-13 08:40:33 6149 4

原创 大数据学习hadoop3.1.13——Hive(实战安装Tez引擎)

Tez是一个Hive的运行引擎,性能优于MR1)将tez安装包拷贝到集群,并解压tar包 mkdir /opt/module/tez tar -zxvf /opt/software/tez-0.10.1-SNAPSHOT-minimal.tar.gz -C /opt/module/tez2)上传tez依赖到HDFS hadoop fs -mkdir /tez hadoop fs -put /opt/software/tez-0.10.1-SNAPSHOT.tar.gz /tez3)新建t

2020-06-12 23:44:35 1323 9

原创 大数据学习hadoop3.1.13——Hive操作命令相关

一、HiveJDBC访问1)启动beeline客户端 bin/beeline -u jdbc:hive2://hadoop101:10000 -n caron2)看到如下界面Connecting to jdbc:hive2://hadoop101:10000Connected to: Apache Hive (version 3.1.2)Driver: Hive JDBC (version 3.1.2)Transaction isolation: TRANSACTION_REPEATABLE

2020-06-12 23:37:12 530

原创 大数据学习hadoop3.1.13——Hive配置(实战连接MySQL·)

一、什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上二、Hive安装注意:安装Hive之前安装MySQL数据库1)把apache-hive-3.1.2-bin.tar.gz上传到linux

2020-06-12 22:49:17 860

原创 大数据学习Spark——Yarn模式(实战配置及历史服务器)

1 解压缩文件将spark-2.4.5-bin-without-hadoop-scala-2.12.tgz文件上传到linux并解压缩,放置在指定位置。tar -zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz -C /opt/modulecd /opt/module mv spark-2.4.5-bin-without-hadoop-scala-2.12 spark-yarnspark2.4.5默认不支持Hadoop3,可以采用多种不同的方

2020-06-03 18:00:56 597

原创 大数据学习Spark——Standalone模式(高可用配置)

所谓的高可用是因为当前集群中的Master节点只有一个,所以会存在单点故障问题。所以为了解决单点故障问题,需要在集群中配置多个Master节点,一旦处于活动状态的Master发生故障时,由备用Master提供服务,保证作业可以继续执行。这里的高可用一般采用Zookeeper设置集群规划1) 停止集群 sbin/stop-all.sh 2) 启动Zookeeper zk start3) 修改spark-env.sh文件添加如下配置注释如下内容:#SPARK_MA

2020-06-03 15:01:50 321

atlas2.1+CDH6.3.2.rar

元数据管理Atlas2.1+CDH6.3.2源码编译 目前已经在正式集群使用,编译成功

2021-01-25

DataX源码编译支持mysql8.0,支持Clickhouse的读写

Datax的源码编译,编译以后支持访问mysql8.0数据库,以及支持连接Clickhouse,从clickhouse读取数据,以及写入数据到clickhouse,当前编译版本已经在正式集群上采用,没有任何问题

2020-10-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除