做课题遇到的小问题,随手记录
1. 下载greengenes13_5数据库 + 用bowtie2建立索引+ 统计长度
greengene是有名的16S数据库,里面有多个版本,此次我使用的是13_5的版本
https://greengenes.secondgenome.com/?prefix=downloads/greengenes_database/ 链接网址
选择想要下载的版本,选择fasta.gz右击地址复制
下载fasta序列 后面我需要比对 所以下载这个
wget https://gg-sg-web.s3-us-west-2.amazonaws.com/downloads/greengenes_database/gg_13_5/gg_13_5.fasta.gz .
就可以下载到本地或服务器了
利用bowtie建立索引,因为后续我要用bowite将我的数据进行比对,看有多少16S 的reads数目
gunzip gg_13_5.fasta.gz
bowtie2-build gg_13_5.fasta dataset
dataset是自定义名字
gg_13_5.fasta文件如下
统计每一行有多少个base,生成如下这种output
cat gg_13_5.fasta | while read line
do
if [[ $line =~ ">" ]];then
name=`echo $line|awk -F '>' '{print $2}'`
echo -n "$name " >> dataset.selfmade.len
else
num=`echo $line | awk -F '' '{print NF}' `
echo $num >> dataset.selfmade.len
fi
done
2. 求和某一列bash
awk '{sum += $2};END {print sum}' AT014_para.clean.sorted.bam.merged.quant
对第二列求和
暂时就这些。
Ref