数据验证、清理与偏差处理
在数据处理过程中,我们常常会遇到各种问题,如数据偏差、缺失值、重复子序列等。本文将详细介绍如何对数据进行验证、清理以及处理数据偏差等问题。
转录验证
在数据集中,记录的注释或聚合可能存在问题,例如记录之间不一致或存在冲突信息。我们可以通过过滤数据集,仅处理定义明确的生物属或科的集合来解决这些问题。
以RNA测序数据为例,测序技术可能会导致短片段RNA碱基对的不准确重复,而这些重复在实际测量的rRNA中并不存在。然而,微卫星和小卫星在rRNA中确实会出现,因此仅仅存在重复序列并不能证明数据收集存在错误,只是具有一定的提示性。
为了检测特定序列中相对较长子序列的重复情况,我们可以编写以下代码:
import gzip
import re
from collections import namedtuple
from collections import Counter
from itertools import islice
from textwrap import fill
Sequence = namedtuple("FASTA", "recno ID name locus bp")
def get_sequence(fname):
fasta = gzip.open(fname)
pat = re.compile(r'n+') # One or more 'n's
sequence = []
recno = 0
for line in fasta:
line = line.de
数据验证清理与偏差处理
超级会员免费看
订阅专栏 解锁全文
1822

被折叠的 条评论
为什么被折叠?



