微生物与人类共生,对人类的健康影响重大,人体内各类微生物的含量和状态应该保持稳态,除非人体患病。
目前二大测序技术的广泛普及,从患者体内获取样本直接测宏基因组的含量变得非常可行。
我获取了4400名健康和患糖尿病的数据,体内的微生物含量以及换算成百分比,加和比例接近1。使用sklearn机器学习包,为4400个样本建立模型,希望通过机器学习来区分健康与糖尿病患者,仅仅根据他们体内的微生物含量数据。
数据的一部分,保存为abundance.txt
下面上代码
import warnings
import pandas as pd
import random
import sys
from sklearn