- 博客(7)
- 收藏
- 关注
原创 【Spark】Spark处理Iceberg小文件问题
摘要:针对Iceberg表在HDFS上存储小文件的问题,提出两种解决方案:1.建表时通过设置'target-file-size-bytes'属性控制文件大小,或使用Spark写入时减少分区数;2.对已存在小文件可通过rewrite_data_files过程合并文件,并提供了完整的SQL示例和验证方法。两种方案均可有效优化小文件问题,具体选择需根据数据量和业务场景决定。
2025-08-14 09:37:52
376
原创 【Flink】Flink批读取Doris与写数据到Doris
本文介绍了使用Flink连接器实现Doris数据库的读写操作。在读取方面,通过添加Flink-Doris连接器依赖,配置DorisOptions和DorisReadOptions参数,使用DorisSource构建数据源,将查询结果转换为JSON格式输出。在写入方面,配置DorisSink参数,设置JSON数据格式和批量写入模式,通过流处理将转换后的JSON数据写入Doris表。整个过程包括环境配置、数据读取转换和写入实现,最终成功实现了Flink与Doris数据库的集成和数据流转。
2025-08-12 17:13:22
424
原创 Kafka的消息可靠性,消除重复与使数据有序
在Kafka的生产者当中有两个线程,一个main(主)线程还有一个Sender(发送)线程,在Kafka生产者发送消息的时候,main线程将数据发送到缓冲区,然后再由Sender线程来发送数据。当main线程不需要等待Sender线程来发送数据,只需要自己发送数据到缓冲区就是异步发送。当main线程需要等待后续的应答,收到应答才能发送后续的消息就叫同步发送。
2024-04-20 10:51:23
1464
1
原创 hadoop的安装与部署
点击vmware的编辑,然后点击虚拟网络编辑器。在点击这个更改设置,进入NAT的设置与DHCP设置。在这里面设置自己的网关192.168.000.2,其中000在每台电脑不一样需要自己去看。设置 DHCP,192.168.000.128与192.168.000.254.然后点击确定。退出后选择应用。这个是给虚拟机联网的。
2023-09-30 17:06:13
1963
1
原创 java第一天cmd的使用
然后输入javac 文件名.java,然后d盘文件会出来一个后缀为.class的文件代表成功。输入java 文件名,然后回车。建立一个文档,然后后缀名改为.java。打开文件用记事本打开,写需要的代码。然后保存(ctrl+s)进入任何d盘,点击查看文件,然后找到文件后缀名查看。这个是c盘,输入d:回车进入D盘,然后输入dir。查看d盘有没有刚建立的文件,有就行。
2023-03-16 11:03:55
113
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅