新上传人体&人脸相关10个数据集,赶紧下载尝试吧!

平台的数据集版块,共有127个不同类别,不同应用的数据集。
在这里插入图片描述
本周在此基础上,又上新10种数据集,目前总共有137种


人体姿态方面

(1)SPHERE 数据集

数据集图片
在这里插入图片描述
数据集简介
SPHERE 数据集的目的,是从视觉信息中评估人体运动的质量,用于运动科学中,从诊断和康复到运动优化的各种应用。
将观察到的运动与正常运动的模型进行比较,并自动评价偏离差距。
数据集数量:数据集为了分析受伤者上楼梯的步态质量,采集了6名健康测试者,17个训练序列,建立了正常运动模型,并从中提取了42个步态周期。
而受伤者的姿态,则由6个受伤者的13个正常步态序列组成。
数据集功能:姿态识别
数据集链接点击查看

(2)ORGBD数据集

数据集图片
在这里插入图片描述

数据集内容:Online RGBD Action数据集,是基于RGBD视频数据进行人的acciton(人-物体交互)识别。
人类行为分为七类:饮酒,饮食,使用笔记本电脑,阅读手机,打电话,看书,使用遥控器。
数据集数量:数据集中包含36个行为视频。
数据集功能:姿态识别、行为识别
数据集链接点击查看

(3)ISR-UoL3D SocialActivity数据集

数据集图片
在这里插入图片描述

数据集内容:ISR-UoL3D Social Activity数据集是两个主体之间的社交互动数据集。
该数据集由RGB图像和深度图像组成,以及由RGB-D传感器获取的跟踪骨骼数据(即关节3D坐标和旋转)组成。
它包括8个社交活动:握手,问候拥抱,帮助步行,帮助站起来,打架,推动,交谈,唤起注意力。在同一会话的动作中,每秒30帧,大约40到60秒。
数据集数量:数据集由10个会话组成,每个会话提供RGB-D图像和两个人进行的8种不同活动的骨骼轨迹。
每个会话都压缩在一个单独的文件中,该文件包含一个文件夹,该文件夹具有文本格式的骨架轨迹RGB(24位)和深度(8位和16位分辨率)图像。
数据集功能:姿态识别、行为识别
数据集链接点击查看

人体REID方面

(1)COCAS数据集

数据集图片
在这里插入图片描述

数据集内容:以往人员重识别中往往假设人物衣服不改变,但在现实场景中,人物是有可能在不同视频中穿着不同的。
为此,中科院深圳先进技术研究院、中科院大学、中科院微电子所的研究人员开发了一个大规模的衣服改变的ReID的数据集COCAS。
数据集数量:COCAS数据集总共包含来自5266人的62382幅人体图像。提供了针对每个人多张不同衣着的照片,每个人有5∼25幅图像和2∼3种不同衣着。
数据集功能:人体REID
数据集链接点击查看

人头检测方面

(1)JHU-CROWD ++数据集

数据集图片

在这里插入图片描述
在这里插入图片描述

数据集内容:JHU-CROWD ++数据集是一个大规模无约束人群计数数据集,与现有数据集相比,在各种不同的场景和环境条件下收集了人群的图片。
包括多张具有基于天气的降级和光照变化的图像,这使其成为一个非常具有挑战性的数据集。此外,数据集在图像级别和头部级别均包含丰富的注释。
多样的条件:密度变化,光照变化,不利的天气条件,例如雾,雨和雪。
数据集数量:JHU-CROWD ++数据集包含4372张图像和151万个标注信息。
数据集功能:人头检测
数据集链接点击查看

人脸识别方面

(1)Glint360K数据集

数据集图片
在这里插入图片描述

数据集内容:Glint360K是格灵深瞳开源,通过清理,合并和发布最大和最干净的面部识别数据集。
数据集数量:Glint360K数据集,包含360232个人的17091657张图片
数据集功能:人脸识别
数据集链接点击查看

(2)Celebrity in Places数据集

数据集图片
在这里插入图片描述

数据集内容:Celebrity in Places数据集包含不同类型场景,以及不同的名人。这些图像全部是使用Google图像搜索获得的,并通过人工注释进行了验证。
比如第一张图片的标签为:阿曼达●塞弗里德-机场航站楼
第二张图片的标签为:大卫●卡梅隆-宴会厅
数据集数量:数据集包含不同类型场景中约36k名人的图像。有4611位名人和16个地方参与其中。
数据集功能:人脸识别、场景分类
数据集链接点击查看

年龄估计方面

(1)年龄估计MegaAge数据集

数据集图片
在这里插入图片描述

数据集内容:MegaAge数据集是新的大规模面部年龄数据集
数据集数量:数据集由41,941张带有年龄后验分布的面孔组成。此外还提供仅包含亚洲人脸(40,000张人脸图像)的MegaAge-Asian数据集。
数据集功能:年龄估计
数据集链接点击查看

人眼方面

(1)TEyeD人眼图像数据集

数据集图片
在这里插入图片描述
数据集内容:在当今世界,基于图像的眼动追踪(eye tracking)变得越来越重要,这是因为人眼运动有可能变革我们与周围计算机系统交互的方式。
例如,人眼注视(gaze)信号连同人机交互的可能性,使得残疾人能够借助专门为其疾症设计的特殊设备来与环境进行交互。
在手术显微镜的应用场景中,外科医生必须进行多种控制行为,这时视觉信号可以用于自动对焦。
TEyeD数据集的图像均通过头戴式设备拍摄获取。具体而言,TEyeD 的创建过程中使用了七种不同的头戴式眼动追踪器,其中两个还结合了 VR 或 AR 设备。TEyeD 中的图像在不同的任务场景中获得,包括乘车、模拟飞行、户外体育运动以及日常室内活动。
数据集数量
数据集中的人眼图像包括 2D 和 3D 特征点、语义分割、3D 眼球注释以及注视向量(gaze vector, GV)和眼动类型。
对瞳孔、虹膜和眼睑均提供了特征点和语义分割,视频长度从几分钟到几小时不等。TEyeD 数据集拥有 2000 多万张精心注释的人眼图像。
数据集功能:图像分割、关键点定位、视线估计
数据集链接点击查看

(2)MPIIGaze数据集

数据集图片
在这里插入图片描述

数据集内容:MPIIGaze数据集是一个人眼注视识别数据集,从各个参与者的笔记本电脑上进行采集获取。
在采集过程中,会运行软件,软件每10分钟自动要求参与者查看20个屏幕随机位置,每个位置有一个灰色圆圈,中间有白点。
采集过程中,要求参与者注视到这些点上,并在圆圈即将消失时,按空格键进行确认。这是为了确保参与者专注于任务,并准确地固定在预期的屏幕位置上。
数据集数量:MPIIGaze数据集从15位参与者处,收集了213659张图像。
数据集功能:视线估计
数据集链接点击查看

在这里插入图片描述

<think>嗯,用户现在想了解适用于二次元图片处理的AI大模型有哪些。首先,我需要回忆一下目前比较流行的图像生成模型,特别是针对动漫风格或二次元的。 首先想到的肯定是Stable Diffusion,因为它有很多专门针对二次元的变体,比如Waifu Diffusion。这个模型是专门训练在动漫数据集上的,应该适合生成和处理二次元图片。另外,NovelAI Diffusion也是一个比较有名的模型,很多用户用它来生成高质量的二次元图像,特别是在艺术创作方面。 然后,ControlNet可能也是一个相关的技术,用户提到的引用[2]里提到了Pix2Pix模型,不过ControlNet本身更多是用于控制生成过程,比如姿势、线条稿上色等,这对二次元图片处理应该很有帮助。比如用户上传线稿,模型可以自动上色,或者调整风格。 还有腾讯的AnimeGAN,虽然可能不算大模型,但它在风格迁移方面效果不错,可以把真实照片转成动漫风格,可能也适用于二次元处理。另外,微软的FaceX-Zero基于StyleGAN,专注于动漫人脸生成,可能也是一个选择。 不过用户问的是大模型,所以可能需要区分哪些是真正的“大模型”,比如Stable Diffusion和NovelAI Diffusion都是基于扩散模型,参数规模较大。而像Waifu Diffusion是社区在Stable Diffusion基础上微调的,应该也算大模型。 还要考虑用户可能的实际需求,比如生成、编辑、上色、风格转换等不同任务,对应的模型可能不同。例如,线稿上色可能需要ControlNet结合Stable Diffusion,而生成全图像可能需要NovelAI或Waifu Diffusion。 另外,用户提到的引用[1]里提到大模型的输出结果受Prompt设计影响大,所以在推荐模型的时候,可能需要提到Prompt的技巧,比如使用特定的动漫风格关键词,或者结合ControlNet的控制条件来优化生成效果。 有没有其他模型呢?比如一些日本公司开发的,或者开源的?可能还有DeepDanbooru这样的标签模型,虽然不直接生成图像,但可以帮助分类和标签处理,辅助生成更准确的二次元图片。不过用户问题主要是生成和处理,可能不需要这个。 总结下来,主要的模型应该是Stable Diffusion系列(包括Waifu Diffusion)、NovelAI Diffusion、ControlNet的应用,以及AnimeGAN和FaceX-Zero。需要分别介绍它们的特点和适用场景,同时引用用户提供的引用[2]提到的ControlNet方法,说明其在指令式变换中的应用。 可能还需要提到这些模型的使用方式,比如通过HuggingFace、GitHub等平台获取,或者集成在某些工具中。此外,二次元图片处理可能需要调整参数,比如颜色鲜艳度、线条清晰度,这些模型是否支持这样的调整? 最后,生成相关问题需要考虑用户可能的后续疑问,比如如何优化生成效果、比较不同模型的优缺点、具体操作步骤等。</think>### 适用于二次元图片处理的AI大模型 二次元图片生成或处理的大模型主要通过深度学习技术实现风格迁移、图像生成、细节优化等功能。以下是目前主流的模型及其特点: --- #### 1. **Stable Diffusion + 二次元专属变体** - **Waifu Diffusion** 基于Stable Diffusion框架,专为动漫风格优化的模型,训练数据包含大量二次元插画,可生成高分辨率、细节丰富的动漫图像。支持通过Prompt控制角色特征(如发色、服装)和场景[^1]。 ```python # 示例代码(使用HuggingFace的diffusers库) from diffusers import StableDiffusionPipeline pipeline = StableDiffusionPipeline.from_pretrained("hakurei/waifu-diffusion") image = pipeline("1girl, pink hair, cherry blossoms background").images[0] ``` - **NovelAI Diffusion** 针对日系动漫优化的商业模型,擅长生成复杂光影和细腻纹理,支持通过文本描述生成高质量插画[^2]。 --- #### 2. **ControlNet(适用于指令式编辑)** - 结合Stable Diffusion,通过边缘检测、线稿上色等功能实现二次元图片的精准控制。例如: - **线稿转上色图**:输入线稿和提示词(如“anime style, vibrant colors”),自动填充颜色。 - **姿势控制**:根据骨骼图生成符合人体结构的动漫角色。 --- #### 3. **AnimeGAN** 由腾讯开发的风格迁移模型,可将真实照片转换为动漫风格。优势在于实时性和轻量化,适合移动端应用。 $$ G: \text{Photo} \rightarrow \text{Anime Style} $$ --- #### 4. **FaceX-Zero(动漫人脸生成)** 基于StyleGAN3的模型,专注于生成多样化二次元角色面部,支持调整五官、表情等细节。 --- #### 5. **DeepDanbooru(标签辅助生成)** 通过识别图片标签(如“blue_eyes”、“twintails”),辅助生成符合特定属性的二次元图像,常与Stable Diffusion结合使用。 --- ### 选择建议 - **生成原创角色**:优先选择Waifu Diffusion或NovelAI。 - **编辑现有图片**:使用ControlNet进行指令式修改(如换色、补全)。 - **风格迁移**:尝试AnimeGAN或Style2Paints。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值