作者: Dario Radečić
翻译:王可汗
校对:张达敏
本文约1200字,建议阅读5分钟本文介绍了一种运行速度大大提高的数据格式。
csv会浪费您的时间、磁盘空间和金钱。是时候结束了。
csv并不是唯一的数据存储格式,甚至可能是你最后才考虑使用的格式。如果你不打算手动编辑数据,使用csv是在浪费时间和金钱。
想象一下——你收集了大量的数据并将它们存储在云端。你没有对文件格式做太多的研究,所以选择了csv。你的开销会爆炸!如果不追求更多,一个简单的调整可以减少一半开销。这个调整就是——你已经猜到了——选择一种不同的文件格式。
Feather到底是什么?
简单地说,它是一种用于存储数据帧(DataFrame)的数据格式(想想Pandas)。它围绕一个简单的前提设计——尽可能高效地将数据帧输入和输出内存。它最初是为Python和R之间的快速通信而设计的,但您并不局限于这个用例。
不过Feather并不只能用与Python和R,你可以通过任何一个主流编程语言使用Feather文件。
这种数据格式不是为长期存储而设计的。最初的目的是R和Python程序之间的快速交换,以及一般的短期存储。没有人能阻止您将Feather文件转储到磁盘,并将它们保存多年,但有比Feather更有效的格式