面向AI的新文件格式Lance挑战传统Parquet

Lance在文件格式竞赛中瞄准Parquet

一款旨在解决广泛使用的Parquet格式局限性的新兴文件格式,正在接受一个开源基金会的采用审查。

Lance的构建基于这样一种理念:Parquet(在多个中心的数据湖中广泛使用)在处理机器学习和AI时已显陈旧,而一种额外的、互补的格式更能满足这些需求。该格式的背后是She,他是用于数据操作和分析的pandas软件库的原始贡献者之一,现在是LanceDB的首席执行官兼联合创始人,该公司支持并开发该格式。

She表示,转折点出现在AI和机器学习开始比传统分析驱动更多数据使用的时候。如今每个人都能利用来自某机构或另一机构的模型,真正的优势在于这些系统能以多快的速度获取数据。

然而,为机器学习推理访问数据所面临的挑战与将其用于分析时不同。“速度要快得多,因为现在很多数据是由模型生成的,每秒有数百个标记的自动数据生成。然后是多样性:现在不再仅仅是数字和时间戳,而是有长文本提示、图像、声波以及(向量)嵌入本身,” She说。

他认为现有的文件格式并非为满足这些需求而设计。She指出:“Parquet非常不适合存储较大的数据类型。如果你有多模态数据,从长文本到嵌入,再到图像和视频,Parquet对这种新型数据完全没有优化。这是因为它的行组以及数据布局的方式。当你尝试写入大规模数据时,会耗尽内存。”

AI还引入了许多新的工作负载,例如向量搜索和检索。She说,Parquet“对于搜索和检索非常糟糕”,因为它需要随机访问,而不像分析那样“读取连续的数据范围”。Lance文件格式2.1版于三月宣布,LanceDB本月早些时候表示其现已稳定。

其作者认为,Lance格式更好地适应了为机器学习和AI存储数据的挑战,因为它包含了文件格式、表格式和二级索引。“数据的布局方式不同,访问模式也发生了变化,因此我们保证了比Parquet更快的扫描速度,同时也保证了真正快速的随机访问,” She说。

Lance于2022年8月开源,该公司正在将其捐赠给一个基金会,预计年底前会发布公告。

Parquet也有自己的表格式合作伙伴。Apache Iceberg、Delta Lake(一个某机构项目)和Apache Hudi都用于将分析引擎带到数据所在处,而无需移动数据。近期有一些举措旨在拉近Iceberg和Delta的距离。

She认为,Lance并非要取代这些格式,而是与它们协同工作。“我们的座右铭是‘Lance用于AI,Iceberg用于BI’。对于分析工作负载,我们仍期望其存储在Iceberg中,但对于AI密集型的使用案例和数据集:搜索、训练和AI推理,我们期望使用Lance,” She说。

不过,正如数据操作平台供应商Coginiti的首席技术官Matthew Mullins所指出的,像Iceberg和Parquet这样的项目拥有发展势头的优势。“Parquet和Iceberg拥有现有地位和广泛支持的优势。Apache Iceberg在经历了十年开发后,真正崛起大约只有两年时间。一个关键因素是某机构和另一机构都全力投入Iceberg,现在每个供应商都支持Apache Iceberg,并且它被列入了每个企业的路线图。LanceDB将有一条漫长的道路,或许会因AI而加速,但它需要更多的社区支持才能成功。”

Iceberg也曾处于起步阶段,直到获得了包括某机构在内的供应商的支持,某机构已将这种表格式整合到其某存储桶中,并在包括某公司和另一公司在内的用户中广泛采用。Lance需要等待,看看它的论点是否能够以同样的方式引起共鸣。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值