随机抽取一定比例的fastq文件

最新推荐文章于 2024-08-23 08:25:40 发布

原创最新推荐文章于 2024-08-23 08:25:40 发布 · 4.5k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#perl

perl 专栏收录该内容

14 篇文章

订阅专栏

本文介绍两种从NGS产生的fq文件中抽取特定比例数据的方法。第一种方法通过随机选取读段实现快速处理，但存在一定随机误差；第二种方法确保精确抽取比例，但运行速度较慢。

在NGS的下机数据中，我们通常抽取一定比例的fq文件做分析。在此，笔者提供两种方式来抽取fq数据。

第一种方法速度较快，但存在一定的随机误差。

运行方式：

perl $0 fq文件抽取比例

#! /usr/bin/perl -w
use strict;
die "#usage:perl $0 <fq><threshold>\n" unless @ARGV==2;
my $fa=shift;
my $threshold=shift;
$fa=~/\.gz/?(open IN,"gzip -cd $fa|"||die) : (open IN,$fa||die);
while(<IN>){
	chomp;
	if($.%4==1){
		my $rand=rand(1);
		if($rand<$threshold){
			print "$_\n";
			print scalar <IN> for 1..3;
		}
	}
}
close IN;

第二种方法方法满足了精确抽取，但较第一种方法稍慢一些。用法相同。

#! /usr/bin/perl -w
use strict;
die "#usage:perl $0 <fq><threshold>\n" unless @ARGV==2;
my $fa=shift;
my $threshold=shift;
my $num=$fa=~/\.gz/? `gzip -cd $fa|wc -l`/4 :`less $fa|wc -l`/4;
my $need=int($num*$threshold);
my %ha;
for(;;){
	my $tmp=int(rand($num));
	$ha{$tmp}=1;
	last if (keys %ha)==$need; 
}
$fa=~/\.gz/?(open IN,"gzip -cd $fa|"||die) : (open IN,$fa||die);
while(<IN>){
	chomp;
	my $line=($.-1)/4;
	if(exists $ha{$line}){
		print "$_\n";
		print scalar <IN> for 1..3;
	}
}
close IN;