安装
Quilt 有两个用户可见的组件:
- 一个 Python 客户端
- 一个 Web 目录
Python 客户端
需要 Python 3.7 或更高版本。
$ pip install 'quilt3[pyarrow]'
Mental Model
Quilt 数据包的思维模型
Quilt 将数据集表示为数据包。一个数据包是一个不可变的相关文件集合,具有形式为 AUTHOR/DESCRIPTION
的句柄,一个用于唯一标识包内容的密码学顶级哈希(或哈希链),以及一个后备清单。
清单被序列化为一个包含条目的文件。清单条目是以下形式的元组:
(LOGICAL_KEY, PHYSICAL_KEYS, HASH, METADATA)
- LOGICAL_KEY逻辑键是用户可见的友好名称,比如 “README.md”。
- PHYSICAL_KEYS物理键是指磁盘上的字节或S3中的字节的完全限定路径。
- Hash哈希是物理键内容的摘要,通常是 SHA-256。
- METADATA元数据是一个字典,可以包含用户定义的元数据键,如边界框、标签或溯源信息(例如,
{"algorithm_version": "4.4.1"}
表示给定文件的创建方式)。