用awk求和某一列+bash循环+下载gg13数据库以及建立索引

本文详细介绍了从下载Greengenes 13_5数据库到建立bowtie2索引的过程,以及如何统计数据库中序列的长度。此外,还提供了在bash环境下对特定列数据进行求和的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

做课题遇到的小问题,随手记录 

1. 下载greengenes13_5数据库 + 用bowtie2建立索引+ 统计长度 

greengene是有名的16S数据库,里面有多个版本,此次我使用的是13_5的版本

https://greengenes.secondgenome.com/?prefix=downloads/greengenes_database/ 链接网址

选择想要下载的版本,选择fasta.gz右击地址复制

下载fasta序列 后面我需要比对 所以下载这个

 

wget https://gg-sg-web.s3-us-west-2.amazonaws.com/downloads/greengenes_database/gg_13_5/gg_13_5.fasta.gz .

就可以下载到本地或服务器了 

 

利用bowtie建立索引,因为后续我要用bowite将我的数据进行比对,看有多少16S 的reads数目 

gunzip gg_13_5.fasta.gz
bowtie2-build gg_13_5.fasta dataset

dataset是自定义名字 

gg_13_5.fasta文件如下

统计每一行有多少个base,生成如下这种output

cat gg_13_5.fasta | while read line 
do
	if [[ $line =~ ">" ]];then
		name=`echo $line|awk -F '>' '{print $2}'`
		echo -n "$name	" >> dataset.selfmade.len
	else 
		num=`echo $line | awk -F '' '{print NF}' ` 
		echo $num >> dataset.selfmade.len
	fi
done  

 

 

2. 求和某一列bash

awk '{sum += $2};END {print sum}' AT014_para.clean.sorted.bam.merged.quant 

对第二列求和 

 

暂时就这些。

 

Ref 

http://www.metagenomics.wiki/tools/bowtie2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值