flink写parquet解决timestamp时间格式字段问题

最新推荐文章于 2025-03-05 18:46:34 发布

原创

最新推荐文章于 2025-03-05 18:46:34 发布 · 1.4k 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#flink #大数据

背景

Apache Parquet 是一种开源的列式数据文件格式，旨在实现高效的数据存储和检索。它提供高性能压缩和编码方案(encoding schemes)来批量处理复杂数据，并且受到许多编程语言和分析工具的支持。

在我们通过flink写入parquet文件的时候，会遇到timestamp时间格式写入的问题。flink官方sdk提供的avro定义转换为parquet文件字段定义是没有timestamp类型的，得另找方法解决。

parquet的时间字段

parquet字段定义存在如下几种类型：

BOOLEAN: 1 bit boolean
INT32: 32 bit signed ints
INT64: 64 bit signed ints
INT96: 96 bit signed ints
FLOAT: IEEE 32-bit floating point values
DOUBLE: IEEE 64-bit floating point values
BYTE_ARRAY: 任意长度 byte 数组

其中timestamp使用int96类型进行存储，只有使用int96按照指定格式存储时间格式，我们才可以通过hive,sparksql等计算引擎读取正确的时间数据。

flink2parquet

flink官方提供的写入parquet的处理方式如下：

    String avroSchema = "";

    //构建parquet格式定义
    Schema schema = new Schema.Parser().parse(avroSchema);


    BulkWriter.Factory<GenericRecord> writerFactory = ParquetAvroWriters.forGenericRecord(schema);

    org.apache.flink.connector.file.sink.FileSink fileSink = org.apache.flink.connector.file.sink.FileSink.forBulkFormat(
                    new org.apache.flink.core.fs.Path("hdfs://xxxxx/xx/xx"), writerFactory)
            .withRollingPolicy(OnCheckpointRoll

最低0.47元/天解锁文章

200万优质内容无限畅学

路边草随风

博客等级

码龄13年

31
原创

51
点赞

223
收藏

22
粉丝

关注

私信

热门文章

分类专栏

linux 3篇
centos 1篇
java 20篇
springboot 1篇
大数据 4篇
spark 2篇
数据库 2篇
sql 2篇
hadoop 2篇
c++ 3篇
opencv 1篇
AI 20篇
人脸检测 1篇
ubuntu 1篇
python 1篇
目标检测 1篇
tensorflow 1篇
c# 1篇
AForge 1篇
运动检测 2篇
算法 18篇
深度学习 17篇
机器学习 16篇
数据挖掘 6篇
矩阵运算 3篇
CUDA

展开全部收起

上一篇：: paimon使用腾讯云cosn作为仓库存储的使用方式

最新评论

paimon使用腾讯云cosn作为仓库存储的使用方式
lds_include: 我只是本地idea中开发一个项目我也得配置hadoop的环境嘛？如果不配置我应怎么实现 flink+paimon 然后用腾讯的cos作为存储呢
springboot框架中使用websocket传输内容过长的问题解决
逆行241: Error starting ApplicationContext. To display the conditions report re-run your application with 'debug' enabled. 2023-12-13 11:19:42.220 ERROR 16228 --- [ main] o.s.boot.SpringApplication : Application run failed org.springframework.beans.factory.parsing.BeanDefinitionParsingException: Configuration problem: A circular @Import has been detected: Illegal attempt by @Configuration class 'WebAppRootContext' to import class 'WebAppRootContext' as 'WebAppRootContext' is already present in the current import stack [WebAppRootContext->WebAppRootContext->FoodworkshopApplication] Offending resource: class path resource [com/pig4cloud/pig/foodworkshop/utils/WebAppRootContext.class] at org.springframework.beans.factory.parsing.FailFastProblemReporter.error(FailFastProblemReporter.java:72) ~[spring-beans-5.3.27.jar:5.3.27] at org.springframework.context.annotation.ConfigurationClassParser.processImports(ConfigurationClassParser.java:561) ~[spring-context-5.3.27.jar:5.3.
springboot框架中使用websocket传输内容过长的问题解决
今晚抓恐龙: 多谢大佬解决我的问题
springboot框架中使用websocket传输内容过长的问题解决
spcodhu: 多谢大佬解决我的问题
用java实现主成分分析(PCA)降维
递归yyds: core也是0.3，

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

路边草随风 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。