如何获取CelebA-HQ的数据集

### 如何下载和获取 CelebA-HQ 数据集 #### 准备工作 为了成功下载并处理 CelebA-HQ 数据集,需要完成以下几个部分的工作。以下是详细的说明: 1. **下载原始数据集 `img_celeba`** 原始图像数据可以从官方资源或其他可信镜像站点获得。通常情况下,这些文件是以 `.7z` 的形式提供,并分为多个分卷压缩包。例如,`img_celeba.7z.001`, `img_celeba.7z.002`, ..., `img_celeba.7z.014`。 将所有分卷文件下载至同一目录后,可以通过以下命令将其合并成单个 `.7z` 文件: ```bash cat img_celeba.7z.* > img_celeba.7z ``` 如果尝试使用 `unzip` 工具解压时遇到错误提示 “End-of-central-directory signature not found”,则表明该工具不支持 `.7z` 格式的解压[^1]。此时应改用 `p7zip` 工具来解压文件。 2. **安装并配置 p7zip** 在 CentOS 或其他基于 Linux 的系统中,可通过以下命令安装 `p7zip` 和其命令行工具 `7za`: ```bash sudo yum install -y p7zip ``` 安装完成后,执行以下命令对合并后的 `.7z` 文件进行解压: ```bash 7za x img_celeba.7z ``` 3. **下载 CelebA-HQ Deltas** CelebA-HQ 是通过对原始 CelebA 图像应用一系列增强操作生成的高分辨率版本。为此,需额外下载名为 `CelebA_HQ_deltas` 的增量更新文件。此文件同样可能以 `.rar` 或 `.7z` 形式存在,具体取决于来源网站的选择。 百度网盘提供了其中一个可用链接(注意提取码): ``` 链接: https://pan.baidu.com/s/1NmhVaCmRNoBYtIxfxkpQ3g 提取码: bmxv ``` 下载完毕后,利用相同方法对其进行解压即可得到所需的 delta 补丁文件集合。 4. **运行转换脚本** 转换过程依赖于 Python 编写的辅助程序——`h5tool.py`,它位于仓库 `willylulu/celeba-hq-modified` 中。克隆该项目到本地环境前,请确保已安装必要的依赖项如 NumPy、Pillow 等库。 ```bash git clone https://github.com/willylulu/celeba-hq-modified.git cd celeba-hq-modified/ pip install -r requirements.txt python h5tool.py --help ``` 接下来按照文档指引调用对应参数启动实际的数据预处理流程,最终会生成 HDF5 (.hdf5) 结构化存储格式的目标成果物。 --- ### 注意事项 - 整体耗时较长:由于涉及大量高清图片以及复杂的计算逻辑,整个准备阶段可能会耗费较长时间; - 存储空间需求大:考虑到源素材加中间产物再加上最后成品三者叠加起来占用的空间总量非常可观,建议提前规划好磁盘容量分配方案以免中途因不足而中断作业进程。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值