38、生物序列分析的 Java 实现指南

生物序列分析的 Java 实现指南

1. NGS 序列处理

在生物信息学中,FASTA 格式常用于从精心整理的数据源和数据库中提取序列,其中每个碱基都经过确认(错误概率 < 1:100,000)。然而,当处理实验数据时,我们更多会遇到 FASTQ 格式的数据集。FASTQ 格式是在下一代测序(NGS)技术背景下开发的,它的显著特点是包含了质量信息。这是因为 NGS 数据中单个碱基的确定性很重要,一方面,与 Sanger 序列相比,NGS 中每个碱基的质量通常较低;另一方面,多序列比对是区分生物序列变异和技术假象的首要步骤。而 FASTA 格式显然无法存储测序设备生成的碱基级质量信息(除了作为注释)。

FASTQ 中的“Phred 质量分数”以 ASCII 值编码。由于前 32 个 ASCII 字符不可打印,因此会添加一个偏移量。这样,质量信息就以一串可读字符的形式呈现,每个字符编码一个 Phred 值。一个完整的 FASTQ 记录由四行组成(不计算序列换行),以“+”开始质量部分(可选地,后面再次跟随记录 ID)。碱基序列和质量序列的长度必须相同,以确保正确对应。

需要注意的是,不建议打印跨多行换行的 FASTQ 序列。因为“@”符号会出现在质量字符串中,如果它偶然出现在行首,解析器可能会将其误解释为“新记录的开始”。因此,上面引入的换行仅为了提高可读性。

在 Java 中读取 FASTQ 文件,首先需要添加 biojava - sequencing 包的依赖到 pom.xml 文件中:

<dependency>
    <groupId>org.bioj
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值