- 博客(21)
- 资源 (12)
- 收藏
- 关注

原创 Flink读取Kafka数据写入Hive
本文针对数据库CDC(change data capture)场景设计,探讨基于Flink1.12最新版本提供的实时写入Hive的技术可行性,下面为本地IDEA程序案例可供参考。
2021-03-14 17:46:41
9860
8
转载 synchronized(this) 与synchronized(class) 之间的区别
在 Java 中,每个对象都会有一个 monitor 对象,这个对象其实就是 Java 对象的锁,通常会被称为“内置锁”或“对象锁”。类的对象可以有多个,所以每个对象有其独立的对象锁,互不干扰。在 Java 中,针对每个类也有一个锁,可以称为“类锁”,类锁实际上是通过对象锁实现的,即类的 Class 对象锁。synchronized 是 Java 中的关键字,是利用锁的机制来实现同步的。可以发现线程1,2同时结束,3,4有先后,原因是3,4同属于一个实例。可以发现,采用类锁一次只能通过一个。
2024-12-26 22:05:41
100
转载 clickhouse-client连接报错
的配置文件<listen_host>::</listen_host>后,2、再去连接clickhouse客户端,连接失败。说明本机没有开放ipv6,只能对ipv4生效。4、修改listen_host的值。
2022-11-06 19:56:26
3903
转载 处理 Code:516. Authentication failed: password is incorrect or there is no user with such name.
表时,没有添加各服务器的用户名和密码,所以访问不到别的服务器的数据,在我们的。排查后发现,是集群开始安装时设置了密码,而配置。问题解决,开始开心的学习.....
2022-11-06 19:54:36
1589
翻译 深入解析 Flink 细粒度资源管理
相同的slot执行所有task可能会导致非最佳资源利用率。相同slot位的资源必须能够满足最高资源要求,这对于其他要求将是浪费的。当涉及到 GPU 等昂贵的外部资源时,这种浪费会变得更加难以承受。因此,需要细粒度的资源管理,利用不同资源的slot来提高这种场景下的资源利用率。
2022-08-20 17:28:44
364
翻译 Flink整合面向用户的数据流SDKs/API(Flink关于弃用Dataset API的论述)
我们将不描述如何增强Table API/SQL和DataStream的所有技术细节。目标是在弃用DataSet API的想法上达成共识。必须有后续的flip来描述我们所维护的api的必要更改。
2022-06-02 16:06:09
448
原创 Flink JobManager | TaskManager内存模型
Flink内存模型分析JobManager内存模型TaskManager内存模型内存模型分析Flink使用内存(Total Flink Memory)=框架堆内存+框架堆外内存+task堆内存+task堆外内存+网络缓冲内存+托管内存进程内存(Total Process Memory)=Flink使用内存+JVM元空间+JVM执行开销不建议同时设置进程总内存和 Flink总内存。这可能会造成内存配置冲突,从而导致部署失败。通常情况下,不建议对框架堆内存和框架堆外内存进行调整。如果只配置了进
2022-05-01 22:17:56
1370
原创 Flink使用Pod Template将状态快照(Checkpoint、Savepoint)存储在NFS
Flink 版本 1.13.3,使用 native k8s 部署模式,原采用 HDFS 作为状态快照(Checkpoint、Savepoint)的存储地址,但是由于仅使用了其 HDFS 作为状态快照存储地址,且 Hadoop 框架较重,在 k8s 集群中占用大量资源,现考虑将其替换为更轻量级的分布式文件系统——NFS。
2022-01-17 09:47:24
1099
转载 Flink中如何实现一个自定义MetricReporter
什么是 Metrics在 flink 任务运行的过程中,用户通常想知道任务运行的一些基本指标,比如吞吐量、内存和 cpu 使用情况、checkpoint 稳定性等等。而通过 flink metrics 这些指标都可以轻而易举地获取到,避免任务的运行处于黑盒状态,通过分析这些指标,可以更好的调整任务的资源、定位遇到的问题、对任务进行监控。接下来本文将介绍 flink metrics 的一些基本概念与原理以及实践。Flink 对于指标监测有一套自己的实现,同时 flink 自身系统有一些固定的 metric
2021-11-20 16:01:03
1955
原创 flink+kafka的端到端一致性
上一篇中提到flink+kafka如何做到任务级顺序保证,而端到端一致性即为实现用户数据目标端与源端的准确一致,当源端数据发生更改时,保证目标端及时、正确、持久的写入更改数据。为实现端到端一致性应在顺序保证的基础上,实现一致性语义exactly once的保证。纵观各底层组件:Debezium、Kafka、Flink构成了端到端一致性中至关重要的每一环,应充分考虑、分析各组件的一致性语义特性的支持。为实现exactly once语义的一致性,必须提供处理过程的容错性以及处理结果的幂等性。处理过程的容错性是
2021-10-10 21:37:24
626
原创 静态方法单元测试
将mockito-core换成mockito-inline<dependency> <groupId>org.mockito</groupId> <artifactId>mockito-inline</artifactId> <version>3.6.0</version> <scope>test</scope></dependency>先创建一个调
2021-09-22 21:19:20
1760
原创 kafka+flink任务级顺序保证
顺序保证难点本文主要分析 CDC 业务场景中任务级顺序保证,技术选型为:debezium、kafka、flink,其构成了顺序保证中至关重要的每一环,应该充分考虑、分析各组件的对于顺序的支持。首先 debezium 作为采集组件,其分别为 schema topic 和 data topic 提供了不同的时间字段,如下图 schema topic 中提供了事件时间,data topic 中提供了事件时间和采集时间,为后续数据处理提供了依据。Kafka 作为一款性能优秀的消息队列,在分布式事务中有着广
2021-08-23 18:23:33
1172
原创 k8s application模式自动部署flink任务
启动任务和更新任务public void start( DataprocessParam dataprocessParam, DataMap target, Pair<Boolean, String> ifWithSavePoint) { Kafka kafka = dataprocessParam.getKafka(); TaskInfo taskInfo = dataprocessParam.getTaskInfo(); //配置集群信息
2021-08-22 15:48:06
939
原创 flink相关概念介绍
Flink定义Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams.Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink相关概念批处理是有界数据流处理的范例。在这种模式下,你可以选择在计算结果输出之前输入整个数据集,这也就意味着你可以对整个数据集
2021-07-19 20:21:33
378
1
原创 hive3.1.2安装(基于mysql存储元数据)
1.下载wget http://archive.apache.org/dist/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz2.解压tar -zxvf apache-hive-3.1.2-bin.tar.gz3.配置环境变量vim /etc/profileexport HIVE_HOME=/cdc/apache-hive-3.1.2-binexport PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/
2021-06-14 12:23:13
307
1
原创 hadoop集群快速部署
1. 修改Linux主机名hostnamectl set-hostname dhf1或修改配置文件vim /etc/sysconfig/network NETWORKING=yesHOSTNAME=dhf12. 修改IPvim /etc/sysconfig/network-scripts/ifcfg-eth0systemctl restart network3. 修改主机名和IP的映射关系vim /etc/hosts192.xxx.xxx.227 dhf11
2021-06-11 20:05:04
578
3
原创 flink on native k8s by application mode
flink1.13于5月4日发布,版本迭代之快,更是体现了其势不可挡的发展速度。社区活跃度逐步攀升,当然少不了与云原生等技术的集成。 本文主要讲解flink的原生k8s application模式部署步骤,原生k8本质上是flink内部集成了k8s,能够做到Taskmanager的弹性伸缩。而之所以采用application模式部署,是因其规避了session模式的资源隔离问题、per-job模式的集群生命周期问题,以及两者共同的客户端资源消耗问题,也因其显著优点被广泛用于生产环境。...
2021-05-09 11:48:22
1952
2
原创 kubeadmin部署k8s集群
kubeadmin部署k8s集群1.安装要求一台或多台机器,操作系统 CentOS7.x-86_x64硬件配置:2GB 或更多 RAM,2个 CPU 或更多 CPU,硬盘 30GB 或更多集群中所有机器之间网络互通可以访问外网,需要拉取镜像禁止 swap 分区2.系统初始化(所有节点执行)2.1 关闭防火墙: $ systemctl stop firewalld # 临时$ systemctl disable firewalld # 永久2.2 关闭 ...
2021-04-22 10:36:36
740
1
原创 主键自增触发器报错违反唯一约束
创建序列create sequence polygonsonversion_seqincrement by 1start with 1nomaxvaluenocycle cache 10;创建触发器create or replace trigger polygonsonversion_triggerbefore insert on polygonsonversion...
2019-03-19 16:54:54
1299
国家基础地理信息系统1;400万数据
2018-05-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人