内含20万“不可描述”图片，这个数据集千万别在办公室打开

最新推荐文章于 2025-07-16 13:43:08 发布

转载最新推荐文章于 2025-07-16 13:43:08 发布 · 1.7w 阅读

GitHub上出现了一个包含20多万张图片的数据集，分为hentai、sexy、neutral、drawings、porn五类，可用于图像分类器训练，准确度可达91%。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

三井发自凹非寺
量子位出品 | 公众号 QbitAI

近日，GitHub上悄然出现一个内含20多万张“不可描述”图片的数据集。

这份数据集一共将内容分为5类，分别是：

hentai、sexy、neutral、drawings、porn。

640?wx_fmt=png

这份资源的贡献者是一位名叫Alexander Kim的数据科学家。

他说，这些数据集可以用来训练图像分类器，使用CNN做出来的分类器，分辨上述的5种图像准确度可以达到91%。

640?wx_fmt=png

当然，这份数据集的价值并不仅限于此。不论是做敏感内容过滤工具（比如鉴黄工具），还是各种图像生成模型，相关的数据集都是必不可少的。

如果你有什么想法，可以用这个数据集来练手了。

这个数据集资源，现在已经在GitHub Trending上排名第3。

640?wx_fmt=png

数据集里都有什么？

数据集中，一共有227995张图片。

其中，hentai类别中有45228张；sexy类别19554张；neutral有20960张、drawings有25732张；porn类别最多，有116521张。

这些图片，是以链接的方式呈现的。以sexy类别为例：

640?wx_fmt=png

这些链接并不都是完全有效的，也有一些会出现404的情况。

640?wx_fmt=png

不要问我是怎么知道的……

怎么使用这个数据集？

数据集的使用，主要依靠一些脚本（位于scripts目录下）。分别是：

1_get_urls.sh：遍历文本文件，在scripts / source_urls中下载上述5个类别中的每个类别的图像URL。不过，这个脚本已经运行过了，输出结果在raw_data文件中。如果没有特殊需求，可以直接从下面的脚本开始运行。
2_download_from_urls.sh：下载raw_data目录中文本文件中找到的URL的实际图像。
3_optional_download_drawings.sh：（可选）脚本，从Danbooru2018数据集下载适合工作场所的动漫图像。
4_optional_download_neutral.sh：（可选）脚本，从Caltech256数据集下载适合工作场所的中性图像。
5_create_train.sh：创建data/train目录，将所有raw_data中的.jpg和.jpeg文件复制进去，并删除损坏的图像。
6_create_test.sh：创建data/test目录，从data/train中随机为每一类移动N=2000个文件。（如果需要不同的训练/测试分割，可以在脚本里改变这个数字）。也可以多次运行这个脚本，每次从data/train中移动每个类别的N个图片到data/test中。

具体的运行方式如下：

$ bash 1_get_urls.sh # has already been run
$ find ../raw_data -name "urls_*.txt" -exec sh -c "echo Number of URLs in {}: ; cat {} | wc -l" \;
Number of URLs in ../raw_data/drawings/urls_drawings.txt:
   25732
Number of URLs in ../raw_data/hentai/urls_hentai.txt:
   45228
Number of URLs in ../raw_data/neutral/urls_neutral.txt:
   20960
Number of URLs in ../raw_data/sexy/urls_sexy.txt:
   19554
Number of URLs in ../raw_data/porn/urls_porn.txt:
  116521
$ bash 2_download_from_urls.sh
$ bash 3_optional_download_drawings.sh # optional
$ bash 4_optional_download_neutral.sh # optional
$ bash 5_create_train.sh
$ bash 6_create_test.sh
$ cd ../data
$ ls train
drawings hentai neutral porn sexy
$ ls test
drawings hentai neutral porn sexy