Pattern-Based Compression 开箱即用指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00484/article/details/140982221

Pattern-Based Compression 开箱即用指南

Pattern-Based Compression（简称PBC） 是由蚂蚁金服研发的一款针对机器生成数据进行高效无损压缩的算法。此开源项目专注于通过识别并利用数据中的模式来实现帕累托最优压缩效果。它旨在为大数据处理提供高比率的压缩能力，在保持数据完整性和准确性的同时大幅减少存储空间需求。

为了帮助您迅速上手PBC，以下将引导您完成从安装到基础使用的全过程。

确保您的系统已安装Git和C/C++编译环境。然后，执行以下命令以克隆仓库并构建程序：

git clone https://github.com/alipay/Pattern-Based-Compression.git
cd Pattern-Based-Compression
./build.sh

此操作将创建可执行文件pbc，您可以立即在终端或命令行界面中使用。

假设您有一个名为sample.txt的输入文件，下面是如何对其进行压缩和解压的示例：

./pbc -c -i sample.txt -o sample.pbc

上述命令将把sample.txt文件压缩成sample.pbc。

./pbc -d -i sample.pbc -o output.txt

这将从sample.pbc还原出原始的output.txt文件。

参数调优: 根据不同数据类型调整压缩方法(pbc_only, pbc_fse, pbc_fsst, pbc_zstd)和模式大小等参数，以获取更佳的压缩效果。
多线程处理: 利用--train-thread-num选项开启多线程训练，加速数据预处理过程。
使用模式文件: 预先创建模式文件<patternFile>，再对多个相似数据集进行压缩，避免每次重新计算模式。