CelebA-HQ的jpg格式版转化

本文详细介绍了如何从Google Drive下载并处理CelebA-HQ数据集,包括合并与解压分卷压缩文件、下载辅助工具与资源、调整代码参数以生成无噪点高清图像,并解决图片命名与数量问题。

1.从Google drive上下载img_celaba.7z 
https://drive.google.com/drive/folders/0B7EVK8r0v71peklHb0pGdDl6R28 
2.因为数据集是分卷压缩的,所以需要合并再解压缩

cat img_celeba.7z.0** > img_celeba.7z
1
把合并得到的img_celeba.7z解压缩得到img_celeba文件夹,内有202599张jpg图片. 
3.从Google drive上下载CelebA_hq_deltas 
https://drive.google.com/drive/folders/0B4qLcYyJmiz0TXY1NG02bzZVRGs 
文件夹内有30个zip文件,不需要解压缩. 
这两个资源如果没有用外网下载不了,可以自行查找百度云资源.不要找错了,不是img_align_celeba.zip. 
4.从celeba官网的下载地址或者别的地方下载list_landmarks_celeba.txt,很容易找到的。 
5.下载github上这位仁兄的h5tool.py,他的才能直接得到jpg文件,另外一个大兄弟的得到的是hdf5文件 
https://github.com/willylulu/celeba-hq-modified 
6.将h5tool.py,img_celeba,list_landmarks_celeba.txt和CelebA_hq_deltas文件夹放到同一目录下,然后创建save文件夹

mkdir celeba-hq
cd celeba-hq
mkdir celeba-64
mkdir celeba-128
mkdir celeba-256
mkdir celeba-512
mkdir celeba-1024
1
2
3
4
5
6
7
如果你只想要某一种尺寸的图,这个可以在代码里修改. 
6.修改h5tool.py里读取两个数据文件夹和txt文件的路径,使h5tool.py能正确读到文件 
7.运行h5tool.py,点开save文件夹,见证奇迹.

python h5tool.py create_celeba_hq 123456.h5 ./ ./
1
这样得到的高清图很多是有噪点的,后来我发现在h5too.py的第400行左右有一个apply delta image的等式. 
我取消添加delta image,也就是不令img = img + delta,而是直接img = img.这样就能得到没有噪点的高清图了. 
不明白为什么要加delta. 
最后,如果不修改代码的话生成的图片名称和原低清图不一致,这个很容易改,直接将process_func函数返回的idx改成orig_file就好了.另外,作者生成的图片是从索引7000多开始的,这样最后会少7000多张图.估计是他生成时中断过忘记改回从0开始了.
--------------------- 
作者:祖国的花朵33 
来源:优快云 
原文:https://blog.youkuaiyun.com/yunyi4367/article/details/80784205?utm_source=copy 
版权声明:本文为博主原创文章,转载请附上博文链接!

<think>好的,我现在需要处理用户关于CelebA-HQ数据集的查询。首先,用户要求提供数据集下载和使用说明,并且系统级指令里有提到需要引用给定的三个参考资料,同时在回答末尾生成相关问题。我需要确保回答结构清晰,符合中文习惯,并且正确使用LaTeX格式。 首先,查看用户提供的三个引用内容。引用[1]提到数据集包含人脸和掩码,可以通过百度网盘或谷歌下载,但链接似乎不完整。引用[2]给出了项目地址,可能包含下载链接,同时提到分辨率信息。引用[3]介绍了一个处理工具,可能对用户使用数据集有帮助。 接下来,我需要整合这些信息。下载步骤可能需要分官方和替代途径,比如引用[2]的项目地址可能提供下载链接,而引用[1]提到了百度网盘和谷歌。使用说明部分可以包括数据结构和处理工具,如引用[3]提到的CelebA-HQ-Modified工具。此外,需要确保所有行内数学表达式用$...$,如果有的话,但当前内容可能不涉及数学公式,不过需要检查。比如如果有提到图像尺寸如$1024\times1024$,需要正确格式化。 然后,生成相关问题。根据用户提供的示例,问题应围绕数据集的应用、处理工具、与其他数据集对比、常见问题等。需要确保问题自然,并且基于引用的内容。 最后,检查引用标识是否正确添加,例如在提到数据集下载时引用[2],处理工具时引用[3],以及掩码部分引用[1]。需要确保每个引用只在第一次提及的时候标注,或者根据出现次数合理分配。同时,回答结构要分步骤,清晰易懂,避免使用Markdown,用自然的中文段落。 可能需要注意的细节:用户提供的引用[1]中的内容似乎有些混乱,比如提到“第二步(text)”,可能原文有误,但在回答中应避免引用错误部分,只提取有效信息。此外,确保链接正确,引用[2]的项目地址需要检查是否有效,但用户提供的链接是gitcode.com的资源,可能需保留原样。 总结回答结构: 1. 数据集简介:用途、内容等。 2. 下载步骤:分官方和替代途径,引用对应的来源。 3. 使用说明:数据结构和处理工具。 4. 注意事项:权、预处理等。 5. 相关问题:生成4个相关问题,涵盖应用、工具、对比、常见问题。 现在需要按照这个结构组织内容,确保引用正确,语言流畅,符合格式要求。</think>### CelebA-HQ数据集下载与使用说明 #### 1. **数据集简介** CelebA-HQ是一个高质量的人脸图像数据集,包含30,000张高分辨率(最高$1024\times1024$像素)的名人面部图像,广泛应用于计算机视觉任务,如人脸生成、属性识别和图像分割。部分本还包含人脸掩码(如CelebAMask-HQ),支持更精细的语义分割研究[^1][^3]。 #### 2. **下载步骤** - **官方途径** 访问项目仓库 **[https://gitcode.com/Resource-Bundle-Collection/8a929](https://gitcode.com/Resource-Bundle-Collection/8a929)**,根据文档指引下载数据集。该资源库提供多种分辨率本(64×64、128×128、256×256、512×512、1024×1024)[^2]。 - **替代途径** 若官方链接受限,可通过百度网盘或谷歌云盘获取镜像文件(注意验证文件完整性)[^1]。 #### 3. **使用说明** - **数据结构** 数据集通常以图像文件夹形式存储,附带标注文件(如属性标签、掩码图)。例如,CelebAMask-HQ包含约19类语义分割掩码,适用于图像编辑任务。 - **高效处理工具** 推荐使用 **CelebA-HQ-Modified** 工具优化数据加载与预处理。该工具支持快速图像增强、批量读取和格式转换,适合训练AI模型。 #### 4. **注意事项** - **权声明**:仅限学术研究,商业用途需额外授权。 - **预处理建议**:根据任务需求调整分辨率,可使用下采样技术(如双线性插值)减少计算负载。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值