什么是parquet文件
Apache Parquet是一个开源的,列存储的数据文件格式。
https://parquet.apache.org/
在R里面,我们可以通过arrow包来读写它。
我们先安装一下arrow包,并加载它。
install.packages("arrow")
library(arrow)
读写parquet文件
我们目前没有parquet的文件在本地,先用arrow包里面的write_parquet写一个。
write_parquet(
x,
sink,
chunk_size = NULL,
version = "2.4",
compression = default_parquet_compression(),
compression_level = NULL,
use_dictionary = NULL,
write_statistics = NULL,
data_page_size = NULL,
use_deprecated_int96_timestamps = FALSE,
coerce_timestamps = NULL,
allow_truncated_timestamps = FALSE
)
我们写一下cars,然后读取它。
write_parquet(cars, "cars.parquet")
df_from_parquet <- read_parquet("cars.parquet")

使用R的arrow包处理ApacheParquet文件
本文介绍了ApacheParquet列存储数据文件格式,并展示了如何在R中通过arrow包进行读写操作,包括安装arrow包、写入cars数据到parquet文件以及读取该文件的过程。
1万+

被折叠的 条评论
为什么被折叠?



