使用pandsa数据框时经常需要通过某一列来筛选数据,有时需要用for循环来筛选目标列,但for循环太慢,可以通过numpy子集函数先筛选索引,然后通过布尔索引来筛选,可以极大提高筛选的速度,可以1秒筛选几百万的矩阵。
第二步,对于每个样本,提取3条序列作为测试集合使用
比如要解决如下问题:
本人有个涉及质粒的矩阵,如下:
>>> pdf6.head()
0 1 2 3 4 5 6 7 8 9 ... 2072 2073 2074 2075 2076 2077 2078 2079 id6 plasmid
0 32 12 21 20 11 6 4 4 16 13 ... 4 4 12 5 1 13 1 8 AP012172_1 CP002635
1 20 14 8 14 13 4 7 7 12 8 ... 8 1 9 2 1 8 2 12 AP012172_2 AP012172
2