- 博客(44)
- 收藏
- 关注
原创 Doris数据导入和导出
Broker 导入,主要用于从HDFS上把文件导入到Doris中。这是一个异步导入的方式。(任务执行成功并不代表数据全部都导入成功)前提:启动HDFS。
2023-04-14 10:06:38
1474
原创 Doris数据模型
key相同的数据,Value会按照指定的聚合方式聚合到一起。(replace、sum、min、max)冗余模型,允许数据存在重复(冗余)。可以存储原始数据,不会做任何的聚合操作。也不在保证数据的唯一性。唯一模型,保证key的唯一性。换句话说,只要key相同,则Doris会用最新的数据替换之前的数据。Aggregate Model(聚合模型)Duplicate Model(冗余模型)Unique Model(唯一模型)
2023-04-14 09:48:25
1002
原创 MySQL-Flink CDC-Hudi综合案例
'table.type'= 'MERGE_ON_READ', -- 默认COPY_ON_WRITE,可选MERGE_ON_READ。'hive_sync.support_timestamp'= 'true'-- 兼容hive timestamp类型。'hive_sync.table'= 'bxg_oe_course_type', -- hive 新建表名。'hive_sync.enable'= 'true', -- 开启自动同步hive。
2023-04-13 21:21:24
647
1
原创 Flink CDC入门案例
由于Flink CDC是基于日志的方式,因此需要开启MySQL的binlog日志。开启binlog日志的配置如下#1.编辑MySQL的配置文件#添加如下内容[mysqld]log-bin=mysql-bin # 开启 binlogbinlog-format=ROW # 选择 ROW 模式server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复#重启MySQL服务。
2023-04-13 21:10:35
654
原创 Flink整合Hive
flink-sql-connector-hive-3.1.2_2.12-1.14.5.0.jar(FlinkSQL必选)flink-connector-hive_2.12-1.14.5.jar(可选,用于DataStream API)hive-exec-3.1.2.jar(必选)目录下,重启Flink集群即可。注意:把上述jar包放入到。
2023-04-13 20:55:14
490
原创 Flink、Hudi技术选型
目前市场上有三款主流的数据湖框架:Delta Lake,Iceberg、Hudi。相比Kylin、Druid而言,Doris的优势更明显。1)Flink支持流批处理(支持有界数据和无界数据的处理)也就是流批一体。5)Flink支持Savepoint机制,可以方便用于运维,升级,扩容等。3)Flink是有状态的计算,相比storm无状态的计算来说很方便。3) 断点续传,支持全量阶段的 Checkpoint。1) 并发读取,全量数据的读取性能可以水平扩展。2)支持轻量级快照机制,可以用于容错。
2023-04-13 20:44:37
663
原创 FlinkSQL的Watermark机制和Checkpoint机制
Watermark机制,就是水印机制,也叫做水位线机制。就是专门用来解决流式环境下数据迟到问题的。
2023-04-12 08:45:00
2050
1
原创 Flink的数据类型
timestamp_ltz #带时区,推荐使用,ltz:local time zone。早先Flink版本使用时间戳类型。集合类型,FlinkSQL中名字叫MULTISET,类似于Java的List。数组类型,FlinkSQL中名字叫ARRAY,类似于Java的array。对象类型,FlinkSQL中名字叫ROW,类似于Java的Object。Map类型,FlinkSQL中名字叫Map,类似于Java的Map。#4.boolean类型。
2023-04-11 15:45:00
1035
原创 Flink之StreamTableEnvironment对象
1.executeSql("sql 语句")可以执行SQL#2.sqlQuery("sql 语句")执行SQL查询,返回查询结果加载table到内存中把结果插入到table中在内存中创建临时表。
2023-04-11 14:15:00
2041
原创 Flink重要的概念
是JobManager把Executor Graph调度给TaskManager执行,TaskManager收到Execution Graph后,把执行图解析,转换成了能够具体执行任务的物理图。是客户端把任务图(Job Graph)提交给集群后,集群的JobManager根据任务图解析,转换成了Execution Graph。Flink集群 -> Job(作业) -> Task(任务,根据宽依赖算子) -> SubTask(子任务,并行度)槽:也是slot,是TaskManager上的固定的资源。
2023-04-11 11:30:00
664
原创 Flink集群有哪些角色?各自有什么作用?
Client是Flink程序提交的客户端,当用户提交一个Flink程序时,会首先创建一个Client,该Client首先会对用户提交的Flink程序进行预处理,并提交到Flink集群中处理,所以Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将Flink Job提交给JobManager。Flink 程序在运行时主要有。
2023-04-10 16:45:00
379
原创 Flink的组件栈有哪些?
Libraries层:该层称为Flink应用框架层,根据API层的划分,在API层之上构建的满足特定应用的实现计算框架,也分别对应于面向流处理和面向批处理两类。面向流处理支持:CEP(复杂事件处理)、基于SQL-like的操作(基于Table的关系操作);API层:API 层主要实现了面向流(Stream)处理和批(Batch)处理API,其中面向流处理对应DataStream API,面向批处理对应DataSet API,后续版本,Flink有计划将DataStream和DataSet API进行统一。
2023-04-10 16:00:00
477
原创 Flink相比传统的Spark Streaming区别?
Flink 根据用户提交的代码生成 StreamGraph,经过优化生成 JobGraph,然后提交给 JobManager进行处理,JobManager 会根据 JobGraph 生成 ExecutionGraph,ExecutionGraph 是 Flink 调度最核心的数据结构,JobManager 根据 ExecutionGraph 对 Job 进行调度。时间机制Spark Streaming 支持的时间机制有限,只支持处理时间。Flink是标准的实时处理引擎,基于事件驱动。
2023-04-10 11:18:08
86
原创 sqoop相关命令
sqoop是apache旗下一款Hadoop和关系数据库服务器之间传送数据的工具。简单来说,sqoop就是一款数据导入导出工具。导入:从RDBMS到hadoop生态圈的过程。导出:从hadoop生态圈到RDBMS。底层:将导入导出命令翻译成MR任务,执行在YARN平台上,底层是对MR的输入和输出做了定制化操作。sqoop的使用方式主要有二种:原生API 和hcatalog API(导入到HDFS 采用的原生API,导入到Hive做增量导入,一般使用hcatalog)
2023-03-18 16:37:07
341
原创 Hadoop组件HDFS的secondaryNameNode是如何辅助管理元数据
* 1- SNN会每隔一定的时间, 检测NameNode是否需要进行checkpoint(1个小时/128M)* 2- SNN一旦达到对应阈值, 就会让Namenode执行checkpoint, 滚动形成一个新的edit文件* 3- SNN将之前整个edit文件和对应fsimage通过HTTP请求的方式将其拉取到SNN所在的节点上* 4- 将edits文件和fsimage文件读取到内存中, 进行内存合并操作, 将其合并为一个新的fsimage文件(fsimage.checkpoint)* 5- 将
2023-02-23 21:14:37
147
原创 Spark运行流程( RDD 的job调度流程: Driver内部运行流程)
Spark运行流程( RDD 的job调度流程: Driver内部运行流程)
2023-02-17 20:48:16
235
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人