文章大纲
minio 简介
MinIO 是全球领先的对象存储先锋,目前在全世界有数百万的用户. 在标准硬件上,读/写速度上高达183 GB / 秒 和 171 GB / 秒。
对象存储可以充当主存储层,以处理Spark、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为Hadoop HDFS的替代品。
MinIO用作云原生应用程序的主要存储,与传统对象存储相比,云原生应用程序需要更高的吞吐量和更低的延迟。而这些都是MinIO能够达成的性能指标。
aws s3的便利使用大家想必印象深刻,minio 作为s3的开源部署
spark dataframe 保存 csv
repartition 设置等于1 ,那么会写成一个文件,但是spark 写文件用的是handoop 的方法,你会发现怎么写,出来都是文件夹,文件夹里面带一个文件。
但这个文件你是可以重命名的。所以如果你要写单个文件的话,可以采用先写然后重命名的方法。
DataFrame.repartition(numParttions=1
Spark与MinIO交互:读写操作与故障排查
订阅专栏 解锁全文
3545

被折叠的 条评论
为什么被折叠?



