文章目录
前言
大家好✨,这里是bio🦖。这次为大家带来的是多级分类数据的可视化,阅读本文你将学习到
1.如何筛选出你想要的数据
2.数据可视化图像的优化
3.NA值的处理
所用的语言是Python,全部过程及代码在MyGithub,感兴趣的读者可以取看看!
一、数据筛选
数据来源于Virion database,想要跟做的读者可以下载试试,如果访问不了,可能需要挂载VPN。打开数据我们能看到一些缺失值在宿主、病毒以及TaxID,所以首先对数据的筛选可以是选择这四项值存在的数据。
这里有一个值得注意的点,解码方式使用ISO-8859-1能够解决乱码问题。选择这个解码主要还是要看你的数据采用什么方式编码。
import pandas as pd
with open('/home/bio_kang/virus_host_virion/Virion.csv','rb') as f:
lines = f.readlines()
data_procession = []
for line in lines:
if len(line) < 34:
continue
else:
data = line.decode('ISO-8859-1').strip('\n').split('\t')
if data[0] == '' or data[1]=='' or data[2]=='' o

该博客介绍了如何使用Python进行数据筛选和处理,特别是针对多级分类数据。首先,通过ISO-8859-1解码处理数据并去除缺失值。接着,利用matplotlib进行数据来源的统计分析,并绘制饼图。最后,通过plotly创建了分级数据的旭日图,展示了数据的层级结构。整个过程涉及数据清洗、数据可视化和文件操作。
最低0.47元/天 解锁文章
919

被折叠的 条评论
为什么被折叠?



