80岁带病拿捏-优快云博客

原创【Spark】Spark处理Iceberg小文件问题

摘要：针对Iceberg表在HDFS上存储小文件的问题，提出两种解决方案：1.建表时通过设置'target-file-size-bytes'属性控制文件大小，或使用Spark写入时减少分区数；2.对已存在小文件可通过rewrite_data_files过程合并文件，并提供了完整的SQL示例和验证方法。两种方案均可有效优化小文件问题，具体选择需根据数据量和业务场景决定。

2025-08-14 09:37:52 376

原创【Flink】Flink批读取Doris与写数据到Doris

本文介绍了使用Flink连接器实现Doris数据库的读写操作。在读取方面，通过添加Flink-Doris连接器依赖，配置DorisOptions和DorisReadOptions参数，使用DorisSource构建数据源，将查询结果转换为JSON格式输出。在写入方面，配置DorisSink参数，设置JSON数据格式和批量写入模式，通过流处理将转换后的JSON数据写入Doris表。整个过程包括环境配置、数据读取转换和写入实现，最终成功实现了Flink与Doris数据库的集成和数据流转。

2025-08-12 17:13:22 424

原创 Kafka的消息可靠性，消除重复与使数据有序

在Kafka的生产者当中有两个线程，一个main（主）线程还有一个Sender（发送）线程，在Kafka生产者发送消息的时候，main线程将数据发送到缓冲区，然后再由Sender线程来发送数据。当main线程不需要等待Sender线程来发送数据，只需要自己发送数据到缓冲区就是异步发送。当main线程需要等待后续的应答，收到应答才能发送后续的消息就叫同步发送。

2024-04-20 10:51:23 1464 1

原创 Scala连接Kafka创建生产者与消费者

Kafka的消费者与生产者创建（scala）版

2024-04-14 11:13:55 622 1

原创 hadoop的安装与部署

点击vmware的编辑，然后点击虚拟网络编辑器。在点击这个更改设置，进入NAT的设置与DHCP设置。在这里面设置自己的网关192.168.000.2,其中000在每台电脑不一样需要自己去看。设置 DHCP，192.168.000.128与192.168.000.254.然后点击确定。退出后选择应用。这个是给虚拟机联网的。

2023-09-30 17:06:13 1963 1

原创 eclipce的hello world

hello world

2023-03-16 15:30:54 103 1

原创 java第一天cmd的使用

然后输入javac 文件名.java，然后d盘文件会出来一个后缀为.class的文件代表成功。输入java 文件名，然后回车。建立一个文档，然后后缀名改为.java。打开文件用记事本打开，写需要的代码。然后保存（ctrl＋s）进入任何d盘，点击查看文件，然后找到文件后缀名查看。这个是c盘，输入d：回车进入D盘，然后输入dir。查看d盘有没有刚建立的文件，有就行。

2023-03-16 11:03:55 113

qq_62792484的博客