SIPAKMED数据集论文翻译

SIPAKMED是一个公开的子宫颈细胞图像数据库,包含正常、异常和良性细胞的4049个标记图像,旨在促进细胞分类研究。文章介绍了细胞类型、特征计算和基于支持向量机、多层感知器及卷积神经网络的分类方法,展示了深度学习在细胞图像分析中的优势。

SIPAKMED: A NEW DATASET FOR FEATURE AND IMAGE BASED CLASSIFICATION OFNORMAL AND PATHOLOGICAL CERVICAL CELLS IN PAP SMEAR IMAGES

SIPAKMED:基于特征和图像的子宫颈抹片正常和病理宫颈细胞分类的新数据集

摘要

巴氏涂片图像中子宫颈细胞的分类是一个具有挑战性的任务,因为这些图像的展现具有局限性以及细胞结构部分形态变化具有复杂性。此过程非常重要,因为它为检测癌变或癌前病变提供了基本信息。为此,已经提出了几种算法,以对这种图像中的正常和异常细胞进行分类。但是,每个研究小组通常都会创建自己的图像数据集,这是一种普遍现象,因为构建良好的数据集未公开。为了克服这一障碍并协助该领域的研究进展,我们提供了带标记的巴氏涂片图像数据库,其中根据细胞的形态特征将细胞分为五类。专家手动定义每个图像中的细胞质和细胞核面积,并针对每个感兴趣区域计算强度,纹理和形状的显着特征。已经对这些图像的分类进行了一些实验,其中包括基于特征和基于图像的分类方案。在这个方向上,测试了基于支持向量机和深度神经网络的方法,并提出了每个分类器的性能,以构成评估未来分类技术的参考点。

关键词——巴氏涂片图像,子宫颈类细胞分类,细胞图像数据库,细胞特征,卷积神经网络

1.引言

巴氏涂片图像的自动解释是细胞学图像分析中最有趣的领域之一。这是一个至关重要的问题,它结合了数字图像处理的多个方面,例如图像增强,伪影限制,对象分割,重叠单元格的描绘等。为了自动检测这些图像中的感兴趣区域,已经做出了很多努力,并且它们包括几种技术[1,2,3]。

另外,集成的巴氏涂片图像分析包括基于图像特征的图像分类。巴氏涂片图像中宫颈鳞状细胞的细胞形态学分类对于准确诊断和检测癌性或癌前病变非常重要。通常,为这些图像的自动分类建议的方法需要单个细胞的图像,这些图像是从细胞簇中裁剪出来并进行进一步分析的[4,5]。据我们所知,包含单个细胞图像的唯一可用数据集是Harlev数据集[6],该数据集由有限数量(917)的图像组成。因此,一些研究人员创建了自己的带标记的图像数据集,以评估其方法的性能。但是,这些存在的、非公共的特定数据集的主要缺点是:它们是在单个数据集中进行评估的,难以比较不同分类技术的效率。

在本文中,我们介绍了新颖的公开可用的图像数据集SIPaKMeD,它由4049个带标注的细胞图像组成。根据细胞的细胞外观和形态,专家细胞病理学家将细胞分为五类。更具体地说,正常细胞分为两类(superficial-intermediate, parabasal)),异常但非恶性细胞分为两类(ilocytes and dyskeratotic),还有一类良性(间质性)细胞。我们数据库的每个图像,细胞质区域和细胞核都是手动标记的。在每个感兴趣的区域中,都会计算26个特征,以表征感兴趣区域的强度,纹理和形状。最后,我们使用基于特征和图像的分类方案提供评估结果,并对每个分类器的判别能力进行了一些说明。

2.SIPAKMED数据库

SIPaKMeD数据库由4049个分离的细胞图像(图1)组成,这些图像是从966个巴氏涂片的簇细胞图像中手动裁剪的,当然这些图像也包括在内。这些图像是通过适用于光学显微镜(OLYMPUS BX53F)的CCD相机(Infinity 1 Lumenera)获得的。表1中描述了类中各个单元的分配。在以下段落中,提供了每个类的简要说明。
在这里插入图片描述

2.1 正常细胞

这些是鳞状上皮细胞,其类型根据其在上皮层的位置及其成熟程度来定义。

2.1.1 uperficial-Intermediate cells

它们构成了巴氏试验中发现的大多数细胞。通常它们是扁平的,具有圆形,椭圆形或多边形形状(图1(a))。

数据集介绍:宫颈癌细胞病理目标检测数据集 一、基础信息 数据集名称:宫颈癌细胞病理目标检测数据集 图片数量: - 训练集:1,016张图片 - 测试集:151张图片 分类类别: - Dyskeratotic(不典型角化细胞):宫颈癌前病变的细胞学特征,提示鳞状上皮异常分化。 - Superficial Intermediate(表层中间层细胞):正常宫颈鳞状上皮的成熟阶段细胞。 - koilocytotic(挖空细胞):HPV感染特征性细胞改变,提示病毒感染相关病变。 - metaplastic(化生细胞):宫颈鳞状上皮化生过程的细胞表现。 - parabasal(旁基底细胞):未成熟鳞状上皮细胞,常见于炎症或修复过程。 标注格式:YOLO格式,包含边界框坐标及类别标签,适配目标检测任务。 二、适用场景 医学影像分析系统开发: 支持构建宫颈涂片细胞自动分类模型,辅助病理科医生快速识别癌前病变及HPV感染相关细胞。 AI辅助诊断平台研发: 用于开发宫颈癌筛查工具,通过细胞病理学特征检测提升早期诊断效率。 生物医学研究: 为宫颈病变机制研究提供结构化数据,支持细胞异型性定量分析。 数字病理教学资源: 作为医学教育机构的细胞病理学数字标本库,用于教学演示与诊断训练。 三、数据集优势 临床病理学价值突出: 覆盖从正常细胞到癌前病变的关键类别,标注经病理专家验证,符合Bethesda宫颈细胞学报告系统标准。 多阶段细胞特征覆盖: 包含化生、感染、病变等不同发展阶段的细胞类型,支持模型学习细胞演化规律。 目标检测适配性: YOLO格式标注兼容主流检测框架(YOLOv5/v7/v8等),支持快速部署训练流程。 医学AI模型验证: 提供独立测试集,适用于宫颈癌细胞检测模型的泛化能力评估与benchmark建立。 跨学科研究支持: 同时满足计算机视觉算法研究与临床医学应用需求,促进AI+病理学交叉创新。
### SIPaKMeD 数据集的目录结构 SIPaKMeD 是一个专门用于宫颈细胞 Pap 涂片分析的数据集,其设计目的是为了支持医学图像处理领域中的分类任务。该数据集包含 4049 张带有标注的细胞图像,并按照细胞的特征和形态学知识分为五类[^3]。 #### 目录结构概述 SIPaKMeD 的目录结构通常会遵循一种清晰的分层方式以便于访问和管理不同的类别。以下是典型的目录结构: ``` SIPaKMeD/ ├── Normal/ │ ├── Superficial-Intermediate/ │ │ ├── image_001.png │ │ ├── image_002.png │ │ └── ... │ └── Parabasal/ │ ├── image_001.png │ ├── image_002.png │ └── ... ├── Abnormal/ │ ├── Koilocytes/ │ │ ├── image_001.png │ │ ├── image_002.png │ │ └── ... │ └── Dyskeratotic/ │ ├── image_001.png │ ├── image_002.png │ └── ... └── Benign/ ├── Metaplastic/ │ ├── image_001.png │ ├── image_002.png │ └── ... ``` #### 各子目录说明 1. **Normal/** 此文件夹下包含了两类正常的细胞图像: - `Superficial-Intermediate/`:浅表中间型正常细胞图像。 - `Parabasal/`:副基底型正常细胞图像。 2. **Abnormal/** 此文件夹下包含了两类异常但未达到恶性程度的细胞图像: - `Koilocytes/`:挖空样变性细胞图像。 - `Dyskeratotic/`:角化不良细胞图像。 3. **Benign/** 此文件夹下包含一类良性的细胞图像: - `Metaplastic/`:化生型良性细胞图像。 #### 文件命名规则 每个图像文件名通常是唯一的编号形式(如 `image_001.png`),便于程序化的读取与处理。具体的命名规则可能因版本或发布者的调整而略有差异,但在官方文档中会有明确说明[^3]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值