多任务药物生物活性分类与基因表达数据共聚类研究
1. 多任务药物生物活性分类实验
1.1 数据与预处理
使用从PubChem Bioassay数据仓库获取的NCI - Cancer数据集,该数据集由美国国家癌症研究所和国家卫生研究院发起,包含大量分子对九种不同组织类型的多种人类癌细胞系的生物活性信息,如白血病、黑色素瘤以及肺、结肠、脑、卵巢、乳腺、前列腺和肾脏的癌症。对于每个分子针对特定细胞系的测试,数据集提供生物活性结果(活跃、不活跃)作为分类标签。
目前,PubChem Bioassay数据库中有43197个分子及其在73个癌细胞系中的活性信息。其中60个细胞系对大多数分子有筛选实验结果,且有4547个分子在这些细胞系中没有缺失数据,因此选择这些细胞系和分子用于实验。但分子活性数据在60个细胞系上高度偏斜,约60%的分子在所有细胞系中都不活跃,同时仍有相当比例的分子对所有细胞系都活跃,这些分子不太可能是潜在的药物候选物。
为解决数据偏斜问题,准备了三种不同版本的数据集:
- Full Data :包含NCI - Cancer数据集中所有4547个分子,这些分子在所有60个癌细胞系中的活性类别(活跃与不活跃)都有记录。
- No - Zero - Active :从全数据中移除对任何细胞系都不活跃的分子,剩余2303个分子至少对一个细胞系活跃。
- Middle - Active :遵循特定预处理方法,选择在超过10个细胞系中活跃且在超过10个细胞系中不活跃的分子,最终得到545个分子用于实验。