- 博客(30)
- 问答 (1)
- 收藏
- 关注
原创 Apache Kylin 5.0在Ubuntu18.04的部署教程
本篇博客,将详细介绍Kylin在Hadoop环境上的部署过程以及碰到的问题。
2024-04-29 13:36:52
571
3
原创 TDengine使用踩坑,TDengine ERROR: invalid data or symbol
TDengine ERROR: invalid data or symbol
2024-03-13 13:05:17
1650
原创 TDengine安装踩坑,报错dnode file:/var/lib/taos//dnode/dnode.json not exist
tdengine安装踩坑
2023-08-31 14:48:08
4352
11
原创 Presto-submitter组件
使用scala语言通过rest的形式实现对presto集群进行sql任务提交,返回结果,查询任务状态,kill的功能
2023-05-26 16:30:41
152
原创 使用Spark Structured Streaming将Kafka的数据写入到Hudi数据湖中
使用Spark Structured Streaming将Kafka的数据写入到Hudi数据湖中。
2023-03-23 10:30:47
561
原创 使用Spark Structured Streaming将Kafka的数据写入到Iceberg数据湖中
使用Spark Structured Streaming将Kafka的数据写入到Iceberg数据湖中。
2023-03-23 10:08:05
414
原创 Scala语言实现读取,访问Yarn客户端
使用scala语言访问Yarn客户端,加载Yarn客户端需要yarn-site.xml文件。对Yarns上的程序进行操作,需要applicationId,仅封装了几个常用的方法。
2023-03-21 10:53:42
175
原创 将Springboot的MultipartFile文件上传到Hadoop文件系统
将Springboot的MultipartFile文件上次到Hadoop文件系统
2023-01-13 10:56:04
681
原创 通过hadoop配置文件快速构建可reusable的Hadoop fs
通过读取hadoop配置文件core-site.xml,hdfs-site.xml等文件快速构建可reusable的Hadoop fs
2023-01-11 10:44:22
163
原创 flink任务提交,查询,停止工具
因项目,需要在spring boot后台项目中集成flink任务提交,查询之类的功能,所有有了这个项目这个项目,可以通过java api的形式,帮助你提交,查询,暂停flink任务,也可以构建和关闭flink yarn session集群。主要通过restful接口和构建jobGraph实现。
2022-11-21 16:40:02
2214
原创 使用flink将mysql数据入湖delta
Delta数据湖原来是强绑定于Spark引擎,而近期社区实现了使用Flink引擎将数据入湖,简单写个demo使用下。
2022-11-17 13:34:33
1137
3
原创 使用PackagedProgram封装Flink程序,然后构建JobGraph,提交Flink集群
使用PackagedProgram封装Flink程序,构建JobGraph,提交Flink集群
2022-06-09 15:23:12
1457
5
原创 记录Maven插件的使用
Maven插件使用1. 前言记录下自己使用maven插件的经历2. maven-scala-plugin使用该插件将同时存在java和scala代码的项目进行打包<build> <plugins> <plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</a
2022-04-26 15:44:27
358
原创 将Kafka中的数据流式写入到数据湖Delta Lake中
Kafka-Delta使用1. 前言Delta Version : 1.0spark : 3.1.2scala : 2.12.10将Kafka的数据流式写入到Delta数据湖中2. kafka原始数据格式名称类型user_idLongstation_timeStringscoreIntlocal_timeString3.1 构建sparkval spark: SparkSession = SparkSession.builder()
2022-04-12 10:36:30
1837
2
原创 Spark-StructuredStreaming对mongo实现自定义流数据源
Spark-StructuredStreaming-Mongo1. 介绍最近,有一个新需求,需要将mongo某个表的增量数据,实时同步到数据湖仓库中,于是自定义了这么一个数据源。mongoDb-stream数据源,通过扩展Spark Structured Streaming的Source和Sink实现对mongoDb数据库的流读和流写功能。使用需要通过option传入mongo-ip,数据库名,集合名。流处理读取还须指定schema,流处理回写入mongo时可以不使用。只支持append增量模式
2021-12-10 13:06:08
2082
原创 Unbuntu 18.04 ElasticSearch集群+Head插件+Kibana安装
Unbuntu 18.04 ElasticSearch集群+Head插件+Kibana安装1. 前言因为部分任务需要使用到Es,所以这次将Es集群搭建在原先已经安装好的大数据集群上,顺便搭建了Head,Kibana等工具。主要记录了配置文件的相关信息和一些重要步骤。2. 集群设计这次选择将Es集群搭建在3台机器上,再另外选择一台机器搭建Head,KIbana等可视化工具。ElasticSearch版本7.8.0Kibana版本7.8.0安装Es需要满足Java1.8以上安装Head,Kiba
2021-11-26 14:42:08
291
原创 Unbutu18.04 搭建hive,使用mysql作为元数据仓库
Unbutu18.04 搭建hive,使用mysql作为元数据仓库1. 前言在已经搭建的Hadoop Ha集群上搭建hive主要记录了配置文件信息hive版本 3.1.2mysql版本 5.7.362. mysql安装安装sudo apt install mysql-server使用debian-sys-maint账号登录mysql -udebian-sys-maint -p# 密码在etc/mysql/debian.cnf修改root密码use mysql;up
2021-11-19 15:23:07
2020
原创 zookeeper + kafka + kafka-eagle集群搭建
zookeeper + kafka + kafka-eagle集群搭建1. 前言记录zookeeper集群和kafka集群的搭建步骤,并配置可视化工具kafka-eagle。主要记录配置文件相关信息在ubuntu18.04环境下,可以正常使用,运行。注:kafka集群的使用,需要zookeeper集群2. 节点架构信息节点Zookafkakafka-Eaglenode3√√√node4√√node5√√集群版本号端口
2021-11-15 14:00:55
2378
原创 mongodb Ubuntu18.4安装手册
1. 前言ubuntu18.04 安装mongodb,通过配置文件启动mongodb版本 4.2.172. mongodb安装安装curllib4 sudo apt install curl创建配置文件 mongodb.confsystemLog: #MongoDB发送所有日志输出的目标指定为文件 destination: file path: "/usr/local/mongo/log/mongodb.log" logAppend: truestorage:
2021-11-12 14:24:35
607
原创 Hadoop Ha + Hbase + Spark高可用集群搭建手册
Hadoop Ha + Hbase + Spark高可用集群搭建1.前言记录Hadoop Ha + Hbase+ Spark高可用集群的搭建,主要包括每个组件的配置信息,以及启动步骤。在ubuntu18.04环境下,集群可以正常使用,运行。2.Ling-Ha集群架构信息节点NnRmDFSZKDnNmJnZoosparkHmHrnode1√√√√√node2√√√√node3√√√√√√
2021-11-12 10:15:31
2037
空空如也
关于logback.xml日志颜色的问题
2021-02-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人