- 博客(6)
- 收藏
- 关注
原创 spark通过实现FileFormat方式读取自定义文件格式
Spark内部已经实现了很多常用数据源的适配,对于不支持的自定义的数据源,也提供了相应的接口。最近刚好遇到需要通过Spark读取在HDFS上的自定义文件格式的需求,网上找到的很多资料都以实现 CreatableRelationProvider 接口、继承 BaseRelation 类的方式来实现,这种方式在数据读取时需要实现以下三个 trait 中的一个:@InterfaceStability.Stabletrait TableScan { def buildScan(): RDD[Row]}
2022-03-02 16:35:22
2310
原创 Parquet RLE/BitPack编码
默认情况下,Parquet 中根据 Schema 中定义的列类型在 DefaultValuesWriterFactory 进行类型匹配,选择对应的 writer 进行该列数据处理,本文通过 Binary 类型字段的写入过程static DictionaryValuesWriter dictionaryWriter(ColumnDescriptor path, ParquetProperties properties, Encoding dictPageEncoding, Encoding dataPa.
2022-01-11 16:17:32
1642
原创 java Kafka客户端通过时间戳查询分区offset信息
java Kafka客户端从指定时间位置消费数据欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将
2021-11-22 17:18:33
827
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人