癌症数据预处理技术全解析
1. 引言
高质量的癌症数据需满足其预期用途的要求。在癌症疾病识别自动化中,优质的癌症数据准备至关重要。癌症数据质量由多种因素决定,包括完整性、准确性、一致性、及时性、相关性和可解释性。然而,待挖掘的癌症数据往往存在不完整、有噪声或不准确、不一致等问题。
不准确的癌症数据可能由多种原因导致,例如数据收集工具故障、数据录入时的计算机或人为错误、患者故意提供错误信息、数据传输不一致、命名或数据代码不一致以及输入字段格式不一致等。不完整的数据可能是因为患者信息不可获取、某些信息在入院时未被认为重要而被排除、信息记录错误或设备故障、与其他记录数据矛盾的数据被移除以及患者医疗历史记录或数据更改未被注意到等。
机器更倾向于处理整齐的数据,如结构化的整数和百分比。对于非结构化数据,如文本和图像,在分析前必须先进行清理和格式化。在使用数据集训练深度学习模型时,“垃圾进,垃圾出”的说法很常见,即使用劣质数据训练模型会得到错误、训练不佳的模型,无法用于准确分析。
癌症数据预处理通常有三个目标:一是减少数据采集和生物伪影的影响;二是验证统计假设并转换数据以符合这些假设;三是在不同受试者之间标准化疾病区域的位置,以实现组分析的敏感性和有效性。
2. 癌症类型
细胞是人体的基本组成部分,正常情况下细胞会有序分裂和生长,当细胞衰老或受损时会死亡并被新细胞取代。然而,当遗传变化破坏了这个有序过程,细胞开始不受控制地增殖,就可能形成肿瘤,肿瘤有恶性和良性之分,有些癌症不会形成肿瘤。以下是几种常见的癌症类型:
- 宫颈癌 :发生在子宫颈细胞中,子宫颈连接子宫体和阴道,癌细胞不受
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



