[生信]利用seqkit对双端测序文件成对的进行down sampling

问题描述:在用seqkit的sample函数取指定数目或者比例的序列的时候,总是提示r1和r2的操作的序列不匹配。于是组合使用几个seqkit的工具实现提取。

安装可以使用conda:

conda install -c bioconda seqkit

两个即将进行downsampling 的原始文件均为100行

wc r*.gz
  100   125  8663 r1.test.fastq.gz
  100   125  8799 r2.test.fastq.gz
  200   250 17462 total

#对其中的一个文件进行down sampling 随机取5条序列id
seqkit sample -n 5 r1.test.fastq.gz     | seqkit seq --name --only-id > id.txt
# 这里的id就是从“@”开始,到遇到的第一个空格前的所有的内容

seqkit sample -n 5 r1.test.fastq.gz     | seqkit seq --name --only-id > id.txt
[INFO] sample by number
[INFO] loading all sequences into memory...
[INFO] 4 sequences outputted

# 如果要选取所有的名字
# seqkit sample -n 5 r1.test.fastq.gz     | seqkit seq --name > name.txt


# 查看id list,这里没有展开id具体信息,可以自行用cat查看提取是否正确
wc id.txt
  4   4 155 id.txt

# 根据list对r1/2进行对应的提取
cat r1.test.fastq.gz | seqkit grep -f id.txt > r1.sub.fq.gz
cat r2.test.fastq.gz | seqkit grep -f id.txt > r2.sub.fq.g
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值