pasa_example

基因组组装与注释流程

最新推荐文章于 2024-01-11 21:26:42 发布

原创最新推荐文章于 2024-01-11 21:26:42 发布 · 470 阅读

0 ·

CC 4.0 BY-SA版权

生物信息流程专栏收录该内容

4 篇文章

订阅专栏

#陈老师的样例数据

ln -s /opt/00.incipient_data/data_for_genome_assembling/assemblies_of_Malassezia_sympodialis/Malassezia_sympodialis.genome_V01.fasta genome.fasta

# 将 RNA-Seq de novo 组装序列和 genome-guided 组装序列合并到一个文件中
cat /opt/00.incipient_data/data_for_gene_prediction_and_RNA-seq/Trinity*fasta > transcripts.fasta
perl -e 'while (<>) { print "$1\n" if />(\S+)/ }' /opt/00.incipient_data/data_for_gene_prediction_and_RNA-seq/Trinity.fasta > tdn.accs

# 对 transcripts 序列进行 end-trimming (vector, adaptor, primer, polyA/T tails)
seqclean transcripts.fasta -v /opt/biosoft/PASApipeline-v2.3.3/UniVec/UniVec
# real    2m32.771s
# user    2m32.096s
# sys    0m1.013s

# 生成比对配置文件

cp /opt/biosoft/PASApipeline-v2.3.3/pasa_conf/pasa.alignAssembly.Template.txt alignAssembly.config
DATE=`date +%Y%m%d`
User=`whoami`
echo "perl -p -i -e 's/DATABASE=.*/DATABASE=pasa_${DATE}_$User/' alignAssembly.config" | sh

# 生成 mysql 数据库及表

/opt/biosoft/PASApipeline-v2.3.3/scripts/create_mysql_cdnaassembly_db.dbi -r -c alignAssembly.config -S /opt/biosoft/PASApipeline-v2.3.3/schema/cdna_alignment_mysqlschema

# 运行 PASA 主程序，将 transcripts 序列比对到基因组上，得到去冗余的转录子序列、转录子和基因组的比对结果和可变剪接信息

/opt/biosoft/PASApipeline-v2.3.3/Launch_PASA_pipeline.pl -c alignAssembly.config -R -g genome.fasta -t transcripts.fasta.clean -T -u transcripts.fasta --ALIGNERS gmap,blat --CPU 8 --stringent_alignment_overlap 30.0 --TDN tdn.accs --MAX_INTRON_LENGTH 20000 --TRANSDECODER &> pasa.log
# real    10m21.260s
# user    14m48.870s
# sys    2m14.255s
# 链特异性测序需要加入参数 --transcribed_is_aligned_orient
# 真菌等小基因组，由于基因比较稠密，需要加入参数 --stringent_alignment_overlap