数据挖掘课程的期中实验,仅供参考。完成时间:2022.10.29
基本要求:利用python对数据集中的数据进行主成分分析、类概念描述及特征化分析。要有相关结果的可视化结果。比如数据的分布情况。
数据源是TCGA。
数据源及代码:
链接:https://pan.baidu.com/s/11CpKznSP66EAbPzMspRShA
提取码:sovc
相关文章:https://blog.youkuaiyun.com/Coral__/article/details/128482614
0.实验环境
操作系统:windows10
语言:python3.7.0
编译器:Visual Studio Code
配置要求:在电脑上任意编译器配好python环境即可,无特殊要求
我们需要将重点放在“源代码及数据集-赖紫馨-202008010204”中的“shujuwajue"文件夹。
1.data
此文件夹中有"BLCA"、“BRCA”、“KIRC”、“LUAD”、"PAAD"五个文件夹,其中的“rna.csv"文件是对应癌症的数据文件。
2.PCA.py(code文件夹中)
此代码对应的是主成分分析。
需要运行对应数据时,只需要修改下图横线的路径名称,然后直接运行就可以生成前两个主成分的散点图。
需要生成其他图时,可以将对应代码的注释取消掉。
图1
图2
图3
图4
3.characterization.py(code文件夹中)
这个代码对应的是类特征化分析,直接运行即可生成对应图。
我的类特征化分析依然依赖于主成分分析,将前三个主成分通过K-means聚类后,画出三维彩色散点图。(如下图)
需要运行其他数据时,只需要修改下图横线的路径名称。
4.compare.py(code文件夹中)
此代码对应的是类对比分析,直接运行即可生成对应图。
我的想法是每种癌症类型选了10个样本,前15个基因,通过折线图的方式,判断同一癌症的不同患者基因表达是否具有相似性。
结果显示是有相似性的。
需要运行其他数据时,只需要修改下图横线的路径名称。
5.shang.py(code文件夹中)
此代码对应的是信息增益和属性相关分析,直接运行即可得到对应文件中,两个基因数据之间的数据增益。
默认代码是分析“BLCA”中“A2BP1|54715”和“A2ML1|144568”两个基因数据的数据增益。
需要运行其他数据时,需要修改下图横线的路径名称及想要分析的基因名称。