
大数据
文章平均质量分 69
本专栏聚焦Hadoop与Flink等大数据技术实战,引领你从零开始,深入剖析大数据处理全流程,掌握性能调优与工程化实践,构建高效数据处理能力,成就数据驱动决策,共赴大数据技术前沿之旅。
Rainbow酱
喜欢技术的 java 程序员,分享自己的技术探索经历
https://www.credly.com/badges/629a46fe-77f5-4af3-8ff6-0136b1deea19/public_url
展开
-
kettle安装
在实际企业开发中,都是在本地环境下进行kettle的job和Transformation开发的,可以在本地运行,也可以连接远程机器运行。ETL(Extract-Transform-Load,即数据抽取、转换、装载的过程),数据处理、转换、迁移的工具。ETL工具:Sqoop,DataX,Kettle,Talend。Transformation(转换):完成针对数据的基础转换。Job(作业):完成整个工作流的控制。1.2.3 Kettle的核心组件。1.2 Kettle简介。2.2.3 目录说明。原创 2024-08-22 10:45:50 · 577 阅读 · 3 评论 -
代码生成工具的使用
基于mybatis-plus-generator开源代码,实现基于mp-spring-boot-starter2核心包的框架代码生成,其中包括entity类、mapper,service、controller等;还生成了数据模型及字段的sql语句;以及mysql数据表结构转Doris表结构的sql语句;以及FlinkSQl等。各依赖版本如下:生成代码的版本依赖springboot3,jdk17。原创 2024-08-20 10:28:41 · 378 阅读 · 0 评论 -
kettle安装
在实际企业开发中,都是在本地环境下进行kettle的job和Transformation开发的,可以在本地运行,也可以连接远程机器运行。ETL(Extract-Transform-Load,即数据抽取、转换、装载的过程),数据处理、转换、迁移的工具。ETL工具:Sqoop,DataX,Kettle,Talend。Transformation(转换):完成针对数据的基础转换。Job(作业):完成整个工作流的控制。1.2.3 Kettle的核心组件。1.2 Kettle简介。2.2.3 目录说明。原创 2024-07-01 10:27:08 · 396 阅读 · 2 评论 -
timescaleDB超表创建
把conditions表的数据块区间设置成24小时,分区键是TIMESTAMP类型。在timeSeries数据库上创建TimeScaleDB extension。如“行太大,8610”将字段设置为外部存储。将新建的表转换为hypertable。原创 2024-07-01 10:22:17 · 415 阅读 · 0 评论 -
timescaleDB安装
4、安装VC++ Redistributable for Visual Studio 2015。将sql文件和control文件复制到\share\extension文件夹下。将timescaleDB解压文件夹中dll文件复制到lib文件夹下。根据postgresql版本选择相应的版本,如上图,选择12。找到postgresql的安装目录下的配置文件。postgresql安装成功!二、安装timescaleDB。一、安装postgresql。同意====》点击安装即可!windows系统要求支持。原创 2024-07-01 10:20:21 · 805 阅读 · 0 评论 -
SkyWalking安装部署
版本不对可能报错安装java 111、官网2、下载apm2、下载agents。原创 2024-06-29 11:22:15 · 1012 阅读 · 0 评论 -
Flink的jar编写
添加archetype。原创 2024-06-29 11:19:53 · 328 阅读 · 0 评论 -
安装doris
查看cpu支持avx2指令集支持则下载。原创 2024-06-29 09:24:24 · 1594 阅读 · 0 评论 -
4)、设置系统最大打开文件句柄数
【代码】4)、设置系统最大打开文件句柄数。原创 2024-06-28 12:45:03 · 369 阅读 · 0 评论 -
3)、关闭交换分区(swap)
修改配置文件#删除swap相关行这一行或者注释掉这一行。原创 2024-06-28 12:44:12 · 1739 阅读 · 0 评论 -
2)、时钟同步
166、168服务器同步主节点172的时间。原创 2024-06-28 12:43:37 · 150 阅读 · 0 评论 -
1)、Nginx 方式负载均衡
在172服务器执行。原创 2024-06-28 12:42:46 · 254 阅读 · 0 评论 -
flinkCDC+doris
flinkCDC充分发挥了Debezium提供的能力支持连接flinkCDC与flink版本对照。原创 2024-06-28 12:41:39 · 1112 阅读 · 0 评论 -
日志中心方案
在同步过程中,还可以对数据进行一定的处理,例如分组(GROUP BY)、多表的关联(JOIN)等。改造业务服务层,添加日志依赖Jar包,构造全局traceId,业务服务生成每次操作的traceId,并将其更新到操作的业务表中,发送1条业务消息,包含当前操作的操作人相关信息。原始数据入ODS层,结合DIM层的基础数据,将无意义的数据转换成业务数据,入DWS进行OLAP分析。1、Flink CDC+Kafka 加速业务实时化。3、Flink CDC 原理、实践和优化。15、数据仓库分层DWD、DWB、DWS。原创 2024-06-28 12:35:12 · 788 阅读 · 0 评论 -
8、flinkCDC
MySQL FlinkCDC 通过Kafka实时同步到ClickHouse(自定义Debezium格式支持增加删除修改)基于Flink+FlinkCDC+FlinkSQL+Clickhouse构建实时数据仓库。如果运行结果正确,您可以继续下一步操作。如果不正确请先修正。运行后应该显示 binlog_format 是 ROW。运行后应该显示 log_bin 是 ON。1、mysql开启binlog。修改my.cnf,添加或修改。2、创建maven项目。修改mysql数据库。原创 2024-06-28 12:32:40 · 655 阅读 · 0 评论 -
4、scala安装
官网下载选择2.12版本。原创 2024-06-28 10:58:49 · 336 阅读 · 0 评论 -
3、Kafka安装
我这里有3个节点,像这样能够创建成功topic,说明该topic已经在3个节点都有备份副本,证明集群节点之前能够相互感知,kafka集群搭建成功。命令中的参数–replication-factor是关键,其作用是指定在多少个节点备份副本.分发完成后,其他集群节点都需要修改配置文件。没有3.4.0,选择3.1.0。验证的方法非常简单,创建一个。原创 2024-06-28 10:54:01 · 738 阅读 · 0 评论 -
2、zookeeper
集群模式下配置一个文件 myid,这个文件在 dataDir 目录下,这个文件里面有一个数据就是A值,Zookeeper 启动时读取此文件,拿到里面的数据与 zoo.cfg 里面的配置信息比较从而判断底是哪个 server。D : 万一集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的 Leader ,而这个端口就是用来执行选举时服务器相互通信的端口。C : 这个服务器 Follower 与集群中的 Leader 服务器交换信息的端口。B : 这个服务器的地址。原创 2024-06-28 10:52:11 · 688 阅读 · 0 评论 -
1、HDFS集群搭建
如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果在完全分布式部署,Namenode和ResourceManger如果不是同一台机器,不能在NodeManager上启动 yarn,应该在ResouceManager所在的机器上启动yarn。这是因为WEB浏览器中是以匿名用户(dr.who)登陆的,其只有只读权限,多数操作是做不了的。原创 2024-06-28 10:47:39 · 1039 阅读 · 0 评论